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Chapitre 1 


Introduction générale 


Le programme du module L3 du Magistère Interuniversitaire de Physique couvre essentiellement 
l’électromagnétisme avancé et la relativité restreinte. 

Il n’est peut être pas utile de justifier longuement, à ce niveau, l’intérêt d’un cours d’électroma- 
gnétisme. Il s’agit d’une des quatre interactions fondamentales dont nous pensons qu’elles suffisent à 
expliquer l’ensemble des interactions observées à toutes les échelles, depuis les structures du proton 
ou du neutron, jusqu’à celles des amas de galaxies. Parmi ces quatre interactions, l’électromagnétisme 
jouit d’un statut remarquable. Il est d’abord responsable de la stabilité de l’édifice atomique, de toutes 
les réactions chimiques. C’est aussi souvent par l'intermédiaire d'interactions électromagnétiques que 
nous pouvons acquérir des informations sur le monde qui nous entoure. C’est essentiellement un 
problème d’électromagnétisme que d’explorer la structure du proton par des électrons de haute énergie. 
C’est aussi dans le domaine de l’optique, visible, infrarouge ou micro-onde, que nous pouvons explorer 
la structure de l’univers et remonter aux premiers stades de sa formation. Enfin, l’électromagnétisme, 
dans sa forme la plus achevée, l’électrodynamique quantique, est sans doute la théorie physique la 
mieux vérifiée et la plus sûre aujourd’hui. Les techniques modernes de théorie des champs appliquées 
à l’électromagnétisme permettent en effet de prédire des quantités physiquement mesurables, telles 
que le célèbre facteur gyromagnétique anormal de l’électron (plus connu sous le nom de g — 2) ou les 
déplacements de Lamb de l’atome d'hydrogène avec des précisions pouvant atteindre 1071}, limitées 
essentiellement à ce niveau par notre connaissance imparfaite de la structure des hadrons (protons et 
autres nucléons). 

Il faut voir aussi, d’un point de vue plus historique, que l’électromagnétisme a joué un rôle essentiel, 
au début de ce siècle, dans le développement de la physique moderne. C’est en fait par ses incompati- 
bilités avec les théories antérieures que l’électromagnétisme a contribué à renouveler totalement notre 
vision du monde. La première de ces incompatibilités est celle de l’électromagnétisme avec la ther- 
modynamique classique. Quand on a essayé, à la fin du siècle dernier, de calculer à partir de la toute 
nouvelle théorie de Maxwell (1865) le spectre du rayonnement d’un corps noir (totalement absorbant) 
en équilibre thermodynamique, on s’est heurté à une difficulté en apparence insurmontable. Les lois 
classiques (loi de Rayleigh-Jeans par exemple), établies simplement à partir des équations de Maxwell 
et de considérations énergétiques, prévoient en effet un rayonnement de puissance infinie, avec un 
spectre divergeant aux hautes fréquences, ce qui n’est (heureusement) pas vérifié expérimentalement. 
Ce n’est qu’en 1900 que Planck résolut le problème en quantifiant (sans vraiment croire à une authen- 
tique nature quantique de la matière ou du rayonnement) les échanges d’énergie matière-rayonnement. 
En fait, la nature corpusculaire du rayonnement ne sera établie sur des arguments convaincants que 
par Einstein, qui analyse en 1905 les fluctuations d’un rayonnement en équilibre thermodynamique 
et identifie un terme similaire à celui qu’on obtient pour un gaz de particules. Il découvre ainsi le 
photon (le nom n’apparaîtra que bien plus tard) et interprète en ces termes les propriétés de l'effet 
photoélectrique. Cette idée de quantifier les grandeurs classiques devait, bien sûr, conduire ensuite à 
la formulation moderne de la physique quantique. 
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L’incompatibilité de l’électromagnétisme de Maxwell avec la cinématique classique a joué, elle 
aussi, un rôle essentiel qui sera largement illustré dans ce cours. Les équations de Maxwell prédisent, 
comme chacun sait, une propagation d’ondes électromagnétiques avec une vitesse universelle, c. La 
cinématique classique impliquant la loi standard de composition des vitesses, l’opinion communément 
répandue à la fin du siècle dernier était que cette vitesse était relative à un milieu immatériel remplis- 
sant tout l’espace, l’éther. Ce milieu n’a pas tardé à poser quelques problèmes. Il fallait d’abord qu’il 
soit pratiquement immatériel, pour se laisser traverser sans friction apparente par les planètes. Il fal- 
lait en même temps qu’il soit extrêmement rigide pour transmettre des vibrations transverses à grande 
vitesse. Plus encore, cet éther posait des problèmes d’ordre plus philosophique, en réintroduisant un 
référentiel absolu. Enfin, l'hypothèse de l’éther s’effondra tout à fait quand les expériences de Michel- 
son, justement célèbres, montrèrent que l’éther semblait immobile par rapport à la terre. A moins 
d’en revenir à un anthropocentrisme intolérable ou d'inventer des modifications ad hoc complètement 
artificielles de la théorie (entraînement de l’éther par les masses en mouvement, par exemple), il n’y 
avait plus comme issue que d’inventer la relativité restreinte (en 1905) en renouvelant complètement 
les bases de la cinématique et de la dynamique, avec des conséquences philosophiques importantes 
(abandon de l’universalité du temps), puis la relativité générale, qui donne de la gravitation une 
interprétation complètement géométrique. Il est assez remarquable, d’ailleurs, que les deux incom- 
patibilités que nous venons de discuter aient conduit à deux théories (relativité générale et mécanique 
quantique) parfaitement vérifiées dans la limite des expériences actuelles mais encore incompatibles, 
en dépit des efforts de générations de physiciens. 


La dernier rôle historiquement important de l’électromagnétisme est plus récent. Dès la formulation 
de la mécanique quantique moderne, au début des années 30, on a tenté de quantifier le champ 
électromagnétique et de retrouver ainsi rigoureusement la quantification heuristique de Planck. Si 
tout se passe bien avec les procédés de quantification standard (le terme adéquat est “canonique” ) 
quand on ne considère qu’un mode du rayonnement (une seule onde plane, par exemple), les choses se 
gâtent quand on veut tenir compte de toutes les fréquences et de toutes les directions de propagation. 
Il apparaît alors des infinis dans le calcul de toute quantité physique. Ce n’est que relativement 
récemment (1947 environ) qu’on a pu se débarrasser systématiquement de ces infinis. Ces techniques, 
en particulier la renormalisation, mises au point pour l’électromagnétisme, ont depuis joué un rôle 
essentiel dans la théorie des champs, puisqu'on ne sait pratiquement, encore aujourd’hui, traiter que 
les théories renormalisables. 


Il n’est bien entendu pas possible d'aborder ces problèmes dans un cours de licence. Nous nous 
contenterons d’étudier certaines propriétés de l’électromagnétisme classique (de Maxwell) qui ne sont 
que très partiellement abordées dans les classes “élémentaires” et de discuter des liens profonds entre 
électromagnétisme et relativité restreinte. À ce programme relativement ambitieux, il a été décidé 
récemment d'ajouter un bref chapitre de mécanique analytique. Il s’agit en effet d’une formulation 
élégante et puissante de la dynamique newtonienne classique, qui nous sera fort utile, dans le cours de 
relativité restreinte, pour montrer que l’électromagnétisme de Maxwell est en fait une des dynamiques 
relativistes les plus simples que l’on puisse construire avec une interaction champ-matière non triviale. 
Cette introduction sera également utile pour éclairer le cours de physique statistique classique, dans 
laquelle la fonction de Hamilton de la mécanique classique joue un rôle essentiel. Enfin les formula- 
tions lagrangiennes et hamiltoniennes de la mécanique classique jouent un rôle essentiel en mécanique 
quantique, en fournissant les techniques nécessaires pour un passage rigoureux d’une théorie classique 
à la théorie quantique correspondante (la fameuse quantification canonique évoquée plus haut). Cer- 
tains des objets du formalisme de la mécanique quantique correspondent d’ailleurs de très près à des 
analogues en mécanique analytique. Les commutateurs ne sont que la version matricielle des crochets 
de Poisson que nous introduirons dans cette première partie sur la mécanique analytique. Nous con- 
clurons cette partie par un appendice sur le modèle de Bohr de la structure atomique. Il s’agit en 
effet d’un modèle, fondé sur des concepts de mécanique analytique, qui nous sera fort utile pour des 
discussions qualitatives dans la suite du cours. 
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La deuxième partie du cours sera consacrée à la relativité restreinte. Nous essaierons de mon- 
trer pourquoi l’électromagnétisme de Maxwell est incompatible avec la cinématique de Galilée ou de 
Newton. Nous construirons alors, en nous fondant sur des hypothèses très simples et naturelles, une 
nouvelle cinématique. Nous devrons donc reconstruire aussi la dynamique des particules matérielles. 
Nous chercherons alors à construire une théorie décrivant l'interaction de particules matérielles par 
l'intermédiaire d’un champ. Nous prendrons la forme la plus simple possible pour les fonctions de La- 
grange décrivant ce champ et son interaction avec la matière. En utilisant les résultats de mécanique 
analytique, nous montrerons alors que la théorie ainsi construite n’est autre que l’électromagnétisme 
de Maxwell! Nous aurons ainsi bouclé la boucle mais montré surtout que la formulation de Maxwell, 
arrivée 40 ans avant la relativité, est naturellement relativiste. Nous obtiendrons enfin, en utilisant 
cette approche relativiste, un certain nombre de résultats de pur électromagnétisme, en particulier sur 
les bilans d’énergie-impulsion du champ, particulièrement pénibles à obtenir par d’autre méthodes. 


La troisième partie du cours sera consacrée aux phénomènes de propagation et de diffraction des 
champs électromagnétiques. Nous donnerons en particulier explicitement la solution des équations de 
Maxwell en termes de potentiels retardés. Cette démonstration, outre son importance, fait intervenir 
la technique très puissante des fonctions de Green, qui sont d’un usage courant dans de nombreux 
domaines de la physique et qui jouent un rôle essentiel dans l’établissement de la théorie rigoureuse de 
la diffraction. Le deuxième chapitre de cette partie sera donc consacré à une discussion détaillée de la 
théorie rigoureuse de la diffraction. Nous montrerons quelle est la démarche pour passer des équations 
de Maxwell à l’approximation de Fraunhofer de la diffraction paraxiale, telle qu’elle est enseignée dans 
les classes élémentaires. Le troisième chapitre de cette partie sera consacrée à une discussion rapide 
et très qualitative de quelques applications de la diffraction dans le domaine de traitement optique du 
signal. Ce chapitre sera suivi de quatre appendices qui pourront être ignorés en première lecture. Le 
premier traitera les problèmes de choix de jauge. Si la relativité impose une jauge, il en est d’autres qui 
peuvent être utiles pour des problèmes où l’invariance relativiste peut être temporairement masquée. 
Dans le second, nous explorerons l’analogie formelle entre le rayonnement et l’oscillateur harmonique, 
en introduisant les variables normales du champ. C’est là un étape essentielle vers la quantification du 
rayonnement, que nous évoquerons très brièvement et qualitativement. Le troisième, en application 
directe des principes de la diffraction, traitera des faisceaux gaussiens, essentiels en optique laser. 
Enfin, le quatrième montrera comment l’optique géométrique peut être déduite de l’électromagnétisme 
quand on ne s'intéresse qu’à des champs variant lentement à l’échelle de la longueur d’onde. 


Nous nous pencherons ensuite, dans la quatrième partie, sur le problème du calcul des champs 
rayonnés par divers types de sources. Si la solution en termes de potentiels retardés est parfaitement 
explicite, elle n’est guère manipulable dans la plupart des cas. Nous nous occuperons essentiellement 
dans ce chapitre de trois types de sources. Nous commencerons par examiner le rayonnement produit 
par une charge en mouvement (éventuellement relativiste) imposé. Nous pourrons ainsi nous pencher 
sur le problème du rayonnement de freinage et de la réaction de rayonnement essentiels dans la descrip- 
tion des accélérateurs de particules et dans celle de l’interaction de particules chargées énergétiques 
avec la matière. Nous pourrons aussi traiter le rayonnement du dipôle électromagnétique, constitué 
d’une simple charge oscillant de façon sinusoïdale au voisinage de l’origine. En raison de l’importance 
de ce cas, nous expliciterons le calcul du champ à des distances arbitraires. Nous examinerons, dans le 
deuxième chapitre, des répartitions de courants classiques oscillants (des antennes) que nous traiterons 
par la technique des développements multipolaires, en étudiant en détail les dipôles et quadripôles 
électriques ainsi que les dipôles magnétiques, qui joueront un rôle essentiel dans la partie suivante. 
Nous nous pencherons enfin, dans le dernier chapitre, sur le rayonnement de sources atomiques et 
nous étudierons en particulier la diffusion de la lumière par un atome unique. Nous montrerons, en les 
comparant explicitement, qu’un modèle classique très simple donne des résultats qualitativement très 
comparables à celui d’un modèle quantique beaucoup plus rigoureux. Nous montrerons néanmoins où 
sont les limites de ce traitement ignorant le caractère quantique du champ, en discutant en particulier 
d'expériences récentes. 
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La cinquième partie sera consacrée aux champs électromagnétiques dans la matière. Nous mon- 
trerons d’abord comment on peut se débarrasser, par des procédures de moyennage appropriées et 
l'introduction de nouveaux champs, de la formidable complexité des répartitions de charges dans 
la matière dense. Nous verrons comment la théorie de la réponse linéaire permet d’éliminer de ces 
champs supplémentaires. Nous l’aborderons ici pour la première fois les méthodes de réponse linéaires 
applicables, sous des formes diverses, à des domaines très variés, de la mécanique quantique au traite- 
ment du signal. Nous nous pencherons alors sur la notion de susceptibilité, qui décrit tout autant les 
phénomènes dispersifs dans le milieux transparents (l'indice de réfraction), que les échanges d’énergie. 
Nous montrerons comment la causalité introduit des relations très belles et très fondamentales entre 
dispersion et absorption. Là encore, ces relations sont d’un champ d’application beaucoup plus large 
que l’électromagnétisme qui nous fournira une première occasion de les aborder. 

Nous supposerons connues dans ce polycopié et dans le cours, un certain nombre de notions. 


e Mécanique du point: notion de vitesse, accélération, référentiel, changement de référentiel 
galiléen, principe fondamental, énergies cinétiques et potentielles, moment cinétique. 


e Electrostatique: champ, potentiel, théorème de Gauss, utilisation des propriétés de symétrie, 
énergie électrostatique. Notions d’électrostatique des conducteurs. 


e Magnétostatique: champ, potentiel vecteur, théorème d'Ampère, utilisation des propriétés de 
symétrie, énergie magnétostatique. 


e Electrodynamique: équations de Maxwell, conditions de Jauge, propagation, notion d’onde 
plane, polarisation, potentiels retardés, énergétique des champs électromagnétiques dans le vide 
(densité d’énergie et vecteur de Poynting). Quelques notions sur l’électrodynamique des milieux 
matériels 


e Optique: quelques notions élémentaires d'optique géométrique, interférences et diffraction dans 
la limite de Fraunhofer. 


e Mathématiques: calcul vectoriel, analyse vectorielle (gradient, divergence, rotationnel..). 
intégration, différents systèmes de coordonnées (cartésien, cylindrique, sphérique), bases d’algè- 
bre linéaire, équations différentielles élémentaires. Séries de Fourier et transformées de Fourier 


Ce polycopié est en fait relativement plus complet que le cours lui même, dont la durée limitée 
ne permet pas de traiter en détails tous les sujets énumérés ici. Pour approfondir encore d’avantage 
le sujet, on pourra recourir à de nombreux manuels. Pour ce qui est de la mécanique analytique, 
nous recommandons le Landau (Mécanique), très sec mais très complet, et le Goldstein (Mécanique 
classique) que l’on peut trouver en versions anglaise et traduite. C’est un livre très (trop?) complet. 
Il est de loin préférable de lire une édition récente, les anciennes étant un peu poussiéreuses. Pour 
la relativité, il existe une infinité de manuels. On pourra se référer, là encore au Landau (théorie 
des champs) si on n’est pas rebuté par le style de cet ouvrage et les notations, un peu anciennes. Il 
n’est pas inutile non plus de regarder les articles originaux d’Einstein. Un article de revue de 1907, en 
particulier, que l’on trouvera traduit dans la récente édition d’une sélection d’articles (édition Einstein, 
Relativités I, Seuil CNRS), est un modèle de pédagogie et ferait un excellent manuel. 

Pour tout ce qui concerne les problèmes d’électromagnétisme et aussi pour la relativité il est 
indispensable d’avoir au moins parcouru le Jackson (Classical Electrodynamics). Ce très beau et 
très gros livre est la bible du domaine. Il est extrêmement exhaustif et d’une lecture suffisamment 
facile (surtout les éditions récentes). En fait, il pourrait à lui seul remplacer 80% de ce polycopié, dont 
certains chapitre sont fortement inspirés. Son seul défaut est l’utilisation exclusive du système d’unités 
CGS/UES, ce qui fait que les équations ne sont que difficilement reconnaissables pour des européens 
habitués au système dit international. Fort heureusement, Jackson fournit, dans un appendice très 
intelligemment conçu, les règles de transformation qui sont finalement assez simples. Pour l’optique 
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diffraction, aspects ondulatoires, problèmes de cohérence, de polarisation) on pourra consulter avec 
pi ? 1 
profit le Born et Wolf, vieux manuel ennuyeux mais extraordinairement exhaustif. 
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Partie I 


Mécanique analytique 


Introduction 


La mécanique analytique n’apporte rien de conceptuellement nouveau par rapport aux formulations 
standard de la dynamique newtonienne (principe fondamental, théorème de l’énergie cinétique et autres 
points marquants de l’enseignement élémentaire de la mécanique), mais en constitue une formulation 
très élégante. Parfaitement adaptée à la description de systèmes où les mouvements sont sujets à 
des contraintes (un cauchemar avec les formulations “standard” ), à l’utilisation de techniques de 
perturbations, ce qui explique son succès toujours certain auprès des astronomes, elle est souvent d’un 
usage infiniment plus pratique que les formulations plus élémentaires. 

Il s’agit aussi d’un cas particulier d’une approche très fructueuse dans des domaines variés de la 
physique: une méthode variationnelle. En mécanique analytique, nous ne préciserons pas les équations 
locales que doit vérifier à chaque instant le mouvement de la particule. Nous donnerons en fait une 
condition prescrivant à une intégrale portant sur l’ensemble du mouvement d’être extrémale. Parmi 
toute les trajectoires permises par la cinématique, mais parfois absurdes pour la dynamique, il nous 
faudra choisir la bonne en respectant cette règle. En fait, la description du mouvement en mécanique 
analytique est très semblable à la description des rayons lumineux avec le principe de Fermat. Là 
aussi, on doit choisir parmi tous les trajets possibles celui qui rend extrémale une intégrale qui n’est 
autre que la durée du trajet. 

Surtout, et bien qu’il s'agisse d’un formalisme datant, avec Lagrange et Hamilton, de la fin du 
XVIITME ou du XIX®ME siècle, elle est parfaitement adaptée aux approches modernes de la physique. 
Elle joue ainsi un rôle essentiel en mécanique statistique, elle est à l’origine de la quantification 
des dynamiques classiques, elle est fortement apparentée aux formulations modernes de la mécanique 
quantique en termes d’intégrales de chemin. Elle nous sera enfin d’une grande utilité pour reconstruire 
l’électromagnétisme à partir de la relativité. 

Cette partie se compose de deux chapitres principaux. Dans le premier, qui sera le plus étoffé, nous 
donnons la formulation lagrangienne de la mécanique analytique, qui est celle que nous utiliserons dans 
la partie de relativité. Nous insisterons sur la notion de coordonnée généralisée, qui permet de traiter 
de façon naturelle les contraintes et nous examinerons comment on peut incorporer dans le formalisme 
un certain nombre d'interactions. Un point important dans ce domaine sera l’établissement de la 
fonction de Lagrange pour des particules chargées en interaction avec un champ, dont nous montrerons 
qu’elle redonne bien le force de Lorentz. Enfin, nous déduirons d’un certain nombre de symétries 
fondamentales de la nature (invariance dans le temps, dans l’espace, invariance par rotation) les lois 
de conservation essentielles (énergie, impulsion, moment cinétique). Cette approche qui lie les lois de 
conservation aux propriétés de symétrie est en fait très générale et très puissante. 

Le deuxième chapitre sera consacré à une brève revue du formalisme hamiltonien. Brève parce 
que le sujet est extrêmement vaste, en particulier en ce qui concerne les transformations canoniques et 
les liens avec la mécanique quantique, brève aussi parce que le formalisme hamiltonien ne sera guère 
utilisé en grand détail dans les cours de première année. 
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Chapitre 1 


Formulation lagrangienne 


1.1 Description du système: coordonnées généralisées 


Nous considérerons donc un système composé de N particules matérielles repérées par un indice grec q, 
variant de 1 à N. Une telle description peut convenir à tout système discret de particules ponctuelles 
mais aussi à la description du mouvement d’un solide, après une discrétisation convenable en éléments 
infinitésimaux. Les masses, charges électriques, positions, vitesses et accélérations des particules seront 
dénotées respectivement Ma, qa, ra; Va = Ïa, Aa = Va = la (nous désignerons souvent dans la suite 
les dérivées temporelles par des symboles pointés. Les caractères gras représentent des quantités 
vectorielles). 

L'approche standard de la mécanique newtonienne est alors d'écrire le principe fondamental de la 
dynamique, reliant les accélérations des diverses particules constituant le système aux forces s’exerçant 
sur elles. L'expression de ces forces est donnée, en fonction de la configuration du système, soit par 
des lois fondamentales (force de Lorentz, par exemple), soit par des lois phénoménologiques (forces de 
frottement...). Par exemple, dans le cas de particules en interaction électromagnétique, on écrirait: 


Maaa = La = Ga(E(ra) + Va X B(ra)), (1.1) 


où E et B sont les champs électrique et magnétique déterminés, en fonction des positions de particules, 
par la solution des équations de Maxwell. 

Si l'écriture de toutes les équations dynamiques du système permet en principe, en y ajoutant les 
conditions initiales convenables, de déterminer complètement le mouvement, cette résolution peut être 
très délicate. C’est en particulier le cas quand il existe des contraintes: les positions (ou les vitesses) 
des particules doivent constamment obéir à un certain nombre de relations. Imaginons, par exemple, 
le cas de deux pendules accrochés lun à lextrémité de lautre et contraints à se déplacer dans un 
plan (voir figure 1.1). Dans les formulations classiques, on doit associer à ces différentes liaisons des 
forces (force de tension des fils constituant les pendules, force de réaction du support commun...). Ces 
forces sont de nouvelles inconnues dans le problème qui doivent être déterminées en même temps que 
les variables dynamiques intéressantes. Bien entendu, elles compliquent beaucoup la résolution du 
problème. 

L’idée de la mécanique analytique est de se débarrasser de ces forces inconnues en n’employant 
que des coordonnées indépendantes qui ne seront soumises à aucune contrainte. Nous les appellerons 
“coordonnées généralisées”. Ces coordonnées sont de nature arbitraire (des positions, des angles...) 
mais doivent déterminer de façon univoque l’état mécanique du système si on prend en compte les 
contraintes. On pourra déterminer le mouvement en écrivant une équation différentielle pour chacune 
de ces coordonnées. Considérons, pour fixer les idées, le cas du double pendule. Il y a a priori six 
paramètres pour décrire le système (les positions des deux masses). En fait, les contraintes diminuent 
considérablement la dimensionnalité du problème. D’abord, les fils sont de longueur constante, soit 
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Figure 1.1: Un problème classique de mécanique: deux pendules liés, asservis à se déplacer dans un plan. Les angles 


01 et 02 suffisent à décrire complètement l’état mécanique du système 


deux relations. Ensuite, le mouvement s’effectue dans un plan, ce qui fournit encore deux relations 
(par exemple en écrivant que le produit scalaire de la position avec la normale au plan est nul). Il 
n’y a donc en fait que deux variables indépendantes qui décrivent le mouvement. Un choix tout à fait 
naturel de coordonnées généralisées dans ce cas est de prendre les deux angles 0: et 02 des pendules 
avec la verticale. 


Plus généralement, nous supposerons que les liaisons entre les simples coordonnées cartésiennes 
des particules sont holonomes: il existe 3N — n relations du type f;(ra) = 0. De telles relations 
décrivent convenablement toutes les contraintes directes entre coordonnées, à condition qu’elles soient 
indépendantes du temps (comme celles que nous venons de voir, si la longueur des fils des pendules 
est invariable)!. Elles ne décrivent pas les contraintes entre vitesses (par exemple le roulement sans 
glissement) mais nous verrons plus loin comment on peut en tenir compte. Il ne reste alors que n 
coordonnées généralisées indépendantes que nous noterons qi, à = 1..n. Soulignons une fois de plus 
que ces coordonnées ne sont pas nécessairement cartésiennes et n’ont même pas forcément la dimension 
d’une longueur. Avec des relations holonomes, les positions ra ne dépendent que des n coordonnées 
généralisées et ne dépendent ni des vitesses ni du temps explicitement. Il nous faut maintenant donner 
les lois permettant d'établir les n équations différentielles déterminant la dynamique des q;. 


lEn fait, la plupart des résultats que nous établirons dans ce chapitre seraient également valables si les relations 
faisaient intervenir une dépendance explicite en temps, sous la forme f;(ra,t) = 0. Les positions dépendraient alors des 
coordonnées généralisées, mais présenteraient aussi une dépendance explicite en temps. L'énergie cinétique, par exemple, 
qui est une forme quadratique des dérivées des coordonnées généralisées dans le cas habituel, ferait intervenir des termes 
linéaires dans ces dérivées, ou même des termes n’en dépendant pas. Nous préciserons, si nécessaire, quels sont les 
résultats qui dépendent de façon critique de cette hypothèse. 
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1.2 Principe de moindre action 


1.2.1 Enoncé 


On postule qu’il existe une fonction L(q;,di,t), dite fonction de Lagrange ou lagrangien, homogène à 
une énergie”, qui est telle que l’action 


t 
S = i L(qi, qi, t) dt ; (1.2) 


ti 


soit extrémale pour la trajectoire effectivement suivie par le système de tı à t2 entre qi(1) et gi(2), 
valeurs initiales et finales des coordonnées généralisées. 

Ce que nous postulons ainsi n’est pas directement un ensemble d'équations différentielles pour les 
variables dynamiques (que nous pourrons déduire et dont nous montrerons qu’elles sont équivalentes 
aux formulations standard de la mécanique). Nous nous donnons plutôt un principe variationnel qui 
postule le caractère extrémal d’une certaine intégrale calculée sur la trajectoire en fonction de celle- 
ci. Il y a de nombreux autres exemples de principes variationnels en physique. Les lois de l’optique 
géométrique, par exemple, peuvent se déduire du principe de Fermat qui postule que le rayon lumineux 
effectivement suivi réalise un extremum (en général un minimum) du temps de parcours. 

Le fait que nous prenions une fonction de Lagrange ne dépendant que des positions et des vitesses 
(mais pas de dérivées d’ordre supérieur) exprime, comme nous le verrons, que les équations fonda- 
mentales de la dynamique sont d’ordre deux par rapport au temps. D'autre part, nous spécifions les 
deux conditions “initiales” nécessaires pour chaque coordonnée en donnant les positions initiales et 
finales et non les positions et vitesses initiales. Si ces deux formulations sont bien sûr équivalentes, 
la première est plus avantageuse pour varier l’action sur toutes les trajectoires possibles entre deux 
points. 

Bien sûr, un principe variationnel est d’emploi moins commode en pratique qu’un ensemble d’é- 
quations différentielles. Il faut, en principe, imaginer toutes les trajectoires possibles (continues et 
dérivables) entre les conditions initiales et finales, déterminer l’action sur chacune et déterminer celles 
qui rendent l’action extrémale. Nous verrons, dans le prochain paragraphe, comment en déduire un 
système d'équations différentielles beaucoup plus commodes. 


1.2.2 Equations de Lagrange 


Nous considérons donc deux trajectoires possibles entre q(1) et q(2). L'une, que nous noterons simple- 
ment q(t), est la trajectoire effectivement suivie. L’autre que nous appellerons “trajectoire variée”, 
infiniment proche, correspond à chaque instant aux positions q;(t) + ôqi(t), où ôqi(t) est un accroisse- 
ment infinitésimal de la position (voir figure 1.2). Ces deux trajectoires doivent obéir aux mêmes 
conditions initiales et finales. On a donc 6q(1) = ôq(2) = 0. Nous supposerons que les q; et ôqi 
sont deux fois différentiables. Le fait que les q; donnent la trajectoire effectivement suivie a pour 
conséquence que l’action S est extrémale sur cette trajectoire et ne varie donc pas au premier ordre 
dans les ôq; quand on passe à la trajectoire variée. Or la variation de l’action s’écrit simplement: 


t2 A 
ôS = f (L(qi + qi, Gi + ôq;, t) — L(qi, di,t)) dt. (1.3) 
ti 


En développant L au premier ordre dans les ôq;, on a: 


ðL dôq à 
S = >. co dt D a dt. (1.4) 
ti (3 


ti 


2et que l’on saura écrire si on connaît la nature des forces qui s’exercent sur le système 
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q; A 
q;(2) 


q;(1) 


Figure 1.2: Trajectoire effectivement suivie (ligne continue) et trajectoire variée (pointillée). La trajectoire variée 


s'écarte infinitésimalement de la trajectoire effectivement suivie et coïncide avec celle-ci aux extrémités. 


Pour fixer la trajectoire, nous recherchons une condition sur les ĝq;. Pour éliminer leurs dérivées 
temporelles dans l’expression précédente nous intégrons les termes de la seconde somme par parties. 


On obtient alors: | 
2 


[OL d OL ƏL 
7? L Z- al one EUR | (1.5) 


Les accroissements infinitésimaux ôq; s’annulant aux extrémités de la trajectoire, le terme tout intégré 
est identiquement nul. La somme, elle, ne peut s’annuler pour des ôq; arbitraires (et indépendants) 
que si les n équations différentielles: 

OL d OL 

CRE Le) 1<i<n 1.6 

qi dt Od: LES 
sont simultanément vérifiées. Ce système différentiel avec les conditions aux limites (fournissant 2n 
conditions indépendantes) détermine complètement les n coordonnées généralisées indépendantes. Ces 
équations différentielles sont du second ordre par rapport au temps puisque L dépend a priori des di. 
Quelques remarques s'imposent à ce point. 


e Les équations du mouvement ne changent pas quand L est multipliée par une constante. Cette 
liberté correspond seulement à un choix d’unités (L a, rappelons-le, la dimension d’une énergie). 


e La structure de L doit obéir aux symétries du système physique (invariance par translation dans 
le temps, dans l’espace..). Nous verrons, dans les prochains paragraphes, que cela conduit à des 
conséquences importantes en termes de lois de conservation. 


e Les équations du mouvement sont inchangées si on ajoute à L la dérivée totale par rapport au 
temps d’une fonction des coordonnées et du temps. Posons en effet L’ = L + df(q;,t)/dt (la 
fonction f que nous dérivons ne doit dépendre que des g; pour que le lagrangien modifié ne 
dépende que des q; et &). L’action S”, calculée avec la nouvelle fonction de Lagrange, ne diffère 
de $ que par un terme de la forme | Jiz, qui ne dépend manifestement pas de la trajectoire 
suivie entre 1 et 2. On pourra vérifier par simple substitution que les équations de Lagrange ne 
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changent pas quand on effectue cette modification du lagrangien. Cette liberté (qui n’est pas 
sans évoquer la liberté de jauge en électromagnétisme) est parfois fort utile pour simplifier la 
forme du lagrangien. 


e La fonction de Lagrange est additive. Considérons en effet deux systèmes physiques indépendants 
et n'interagissant pas, décrits par les coordonnées généralisées qı et q2 et par les fonctions 
de Lagrange Lı et Lə. Le système global est défini par la réunion des deux ensembles de 
coordonnées généralisées et il est évident que la fonction de Lagrange associée au système complet 
est L = Li + Lo. 


e Notons enfin que, dans le cas très simple où les coordonnées généralisées coïncident avec les 
coordonnées cartésiennes des particules individuelles (ce qui est par exemple le cas quand il n’y 
a aucune contrainte sur le mouvement), les équations de Lagrange peuvent s’écrire: 


dVvL 


V. L= , 
À dt 


(1.7) 


en faisant intervenir les opérateurs gradient par rapport aux positions et vitesses de chaque 
particule. 


Il nous reste maintenant, pour que ce formalisme ait un sens, à donner la forme de la fonction de 
Lagrange en fonction des interactions que subissent les particules. 


1.3 Expressions de la fonction de Lagrange 


Cette section est essentielle dans ce chapitre, puisqu'elle nous permettra de traiter effectivement des 
problèmes de mécanique par le formalisme lagrangien. Nous nous pencherons d’abord sur le cas de 
la particule libre, puis sur le cas de particules interagissant par des forces conservatives (dérivant 
d’un potentiel), sur le cas de particules soumises à des forces extérieures au système (avec quelques 
applications au cas important du mouvement dans le champ de pesanteur) et enfin sur le cas de 
particules en interaction avec un champ électromagnétique. 


1.3.1 Particule unique libre 


Ce cas élémentaire n’a de mérite que pédagogique. Il est en effet évident dès l’abord que toute 
fonction de Lagrange conduisant à des équations s’écrivant v = 0 conviendra. Une simple fonction 
proportionnelle à v? vérifie (entre autres) cette propriété. La fonction de Lagrange d’une particule 
libre unique est donc, à un choix d’unités près, identique à l’énergie cinétique. Nous allons toutefois 
montrer comment on peut arriver à ce résultat en utilisant les propriétés d’invariance et de symétrie. 

Les coordonnées généralisées coïncident dans ce cas avec les coordonnées cartésiennes standard. La 
particule étant libre, L ne peut explicitement dépendre du temps (invariance par translation dans le 
temps), ni de la position r de la particule (invariance par translation spatiale), ni enfin de la direction 
de sa vitesse v (invariance par rotation). L doit donc être une fonction du carré du module de la 
vitesse: L = f(v?). 

Les équations de Lagrange se résument alors à: 


V:L=0— de PA (1.8) 


qui conduisent bien évidemment, à moins que f ne soit une constante, à v = 0 et donc à un mouvement 
rectiligne uniforme. 

Pour préciser davantage la forme de L et de f, il nous faut ajouter une condition supplémentaire: 
le résultat précédent doit être invariant dans un changement de référentiel galiléen. Considérons pour 
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cela un référentiel R, dans lequel la fonction de Lagrange est L = f(v?) et un référentiel R’ en 
translation uniforme par rapport à R avec une vitesse infinitésimale e. La fonction de Lagrange L’ 
dans R’ doit s'écrire L’ = f(v?) = f((v +e)?) (la fonction f devant manifestement être la même 
pour tous les référentiels). En développant au premier ordre en €, on a: L’ = L+(df/dv?)2v-e. Les 
équations du mouvement dans R et R’ coïncideront si L et L’ ne différent que par une dérivée totale 
par rapport au temps. Le cas le plus simple où cela se vérifie est quand df /dv? est indépendant de v 
(la dérivée par rapport au temps étant alors simplement d(2(df /dv?)r :e)/dt. Le choix le plus simple 
est donc que f soit simplement proportionnelle à v?. Nous poserons donc: 


Le Lu (1.9) 
2 
et appellerons évidemment “masse de la particule” le coefficient m. Ce coefficient doit être positif. 
En effet, l’extremum de l’action correspondant à la propagation en ligne droite à vitesse constante est 
alors un minimum. 

Bien sûr, ce raisonnement n’est pas d’une grande rigueur et repose largement sur le critère de 
simplicité pour identifier complètement la forme du lagrangien. Il illustre en revanche le genre de 
démarche qu’on doit effectuer pour déterminer la forme du lagrangien correspondant à un nouvelle 
interaction: respecter d’abord les grandes propriétés de symétrie, respecter les règles de la relativité 
galiléenne et enfin chercher la forme la plus simple en cas d’ambiguiïté. C’est, avec quelques adap- 
tations, la démarche que nous utiliserons plus tard pour déterminer, en relativité, les lagrangiens 
correspondant à l'interaction électromagnétique. 


1.3.2 Système de particules interagissant par des forces dérivant d’un potentiel 


Nous supposerons d’abord, pour fixer les idées, que les coordonnées généralisées coïncident avec les 
coordonnées cartésiennes. Nous supposerons que la force s’exerçant sur la particule a peut s’écrire 
Fa = -Vr U(r1,..,rn,t), où la fonction U est une énergie potentielle dépendant a priori de la position 
de toutes les particules dans le système. Pour ne pas restreindre la généralité, nous permettrons au 
potentiel de dépendre explicitement du temps. Nous pourrons ainsi traiter, par exemple, le mouvement 
dans des champs extérieurs variables. Nous chercherons simplement la forme de la fonction de Lagrange 
qui redonne les équations dynamiques habituelles. 

Si U est identiquement nulle, la fonction L se résume à l'énergie cinétique totale: L = T avec 
T = Y,(1/2)mav? (ce qui se déduit évidemment du paragraphe précédent et de l’additivité de la 
fonction de Lagrange pour des systèmes sans interaction mutuelle). Nous vérifierons maintenant que 
le choix L = T — U donne, pour les équations de Lagrange, les équations standard. En effet, les 
équations de Lagrange s’écrivent: 


dV' y, L 
V L= — , 1.10 
L= + (1.10) 
et on a 
Vral = -Vra U = Fo, (1.11) 
a dV L d 
Vaw MaVa = Maaa = Fa . (1.12) 


dt dt 


Cette forme du lagrangien redonne donc bien le principe fondamental de la dynamique tel que nous 
le connaissions. 

Considérons maintenant le cas où le système doit être décrit par des coordonnées généralisées qui 
ne coïncident pas avec les coordonnées cartésiennes. La fonction de Lagrange elle-même ne doit pas 
dépendre du choix particulier du système de coordonnées généralisées. Elle doit toujours coïncider avec 
la différence T—U des énergies cinétiques et potentielles. Pour pouvoir écrire les équations de Lagrange, 
il faut exprimer ces quantités en fonction des coordonnées généralisées q; et de leurs dérivées. C’est 
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toujours possible, puisque les q; doivent déterminer de façon univoque l’état mécanique du système 
— quand on prend en compte les contraintes. En inversant ces relations et en les reportant dans 
les expressions de T et U en fonction des coordonnées cartésiennes on obtient facilement le résultat 
cherché. 

Nous avons supposé que les positions rą ne dépendent que des qi, mais pas de leurs dérivées ni du 
temps (ce ne serait pas le cas si les liaisons faisaient intervenir une dépendance explicite en temps). 
On peut donc écire: va = }; didra/0q. En substituant dans T = Xa MaV? /2, on trouve en général 
T comme une forme quadratique définie positive des qi, dont les coefficients peuvent dépendre des qi: 
T =>; Ai j(dk)diġj. Par exemple, on a une expression de ce genre quand on utilise les coordonnées 
cylindriques pour décrire le mouvement d’une particule unique T = m(t? + r202 + 22)/2. Notons enfin 
que, dans les mêmes conditions, U s'exprime simplement comme une fonction des qi. 


1.3.3 Système de particules soumises à des forces extérieures 


C’est un cas particulièrement important en mécanique, puisqu'il permet, entre autres, de traiter de 
mouvements dans le champ de gravitation terrestre. Nous considérons donc un système S dont la 
dynamique est décrite par n coordonnées généralisées q; et dont nous cherchons le mouvement. Les 
particules de § interagissent entre elles par des forces dérivant d’une énergie potentielle et interagissent 
avec les particules d’un système extérieur S, décrit par M coordonnées généralisées Q;. Nous sup- 
poserons que les coordonnées généralisées sont bien séparées: l’état de S est complètement déterminé 
par les q; seuls. Nous supposerons le système S suffisamment “gros” pour que l'interaction avec S 
ait une influence négligeable sur sa dynamique (c’est bien sûr le cas pour tout mouvement réaliste 
dans le champ de pesanteur terrestre). Nous pouvons alors considérer les Q; comme des données du 
problème. 

La fonction de Lagrange du système S + S s'écrit L = Ts + Ts — U (qi; Qi), où U est l’énergie 
potentielle dont dérivent toutes les forces du problème (y compris l’interaction entre S et S), Ts et 
Ts les énergies cinétiques des deux systèmes. Comme nous avons supposé que les deux ensembles 
de coordonnées généralisées sont bien séparés, Ts n’est fonction que des q; et de leurs dérivées et Ts 
n’est fonction que des seuls Qj et de leurs dérivées. Ts peut donc être considérée comme une fonction 
donnée du temps. Une telle fonction étant aussi une dérivée totale par rapport au temps, elle ne joue 
aucun rôle dans les équations de Lagrange et peut être supprimée. De la même manière, U peut être 
écrite comme une fonction des q; seuls et du temps (la dépendance en temps reflétant la dynamique 
des Q;). On a finalement: L = Ts(q, di) — U (qi, t), lagrangien décrivant la dynamique du système S 
seul. 

Ce type de problème étant très fréquemment rencontré en mécanique, nous allons l’illustrer par 
deux exemples. 


Premier exemple 


Cet exemple, particulièrement trivial, ne présente guère que l'intérêt d'appliquer les notions introduites 
dans les paragraphes précédents dans une situation où la mise en équations et les calculs ne présentent 
aucune difficulté technique. Nous considérerons donc la “machine d’Atwood”, pont aux ânes des 
classes élémentaires (voir figure 1.3). Deux masses m1 et m2, astreintes à se déplacer verticalement 
dans le champ de pesanteur (accélération g), pendent aux deux extrémités d’une ficelle passant sur 
une poulie (tout cela étant inextensible, sans frottements...). Une seule coordonnée généralisée suffit 
à décrire ce problème en tenant compte des liaisons (mouvement selon la verticale, longueur de ficelle 
constante). On prendra la position x de la masse m1 le long d’un axe vertical descendant. La vitesse 
de mı est #, celle de m2, ~t. On a alors T = (mı + m2)#?/2 et U = -migz — mog(l — x), où £ est 
une constante. À une constante additive près on a donc U = (m2 — m1)gx et 


1 
L= zm + m2)t? — (m2 — mı )gz . (1.13) 
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Ma 


X 


v 


Figure 1.3: La “machine d’Atwood”, exemple élémentaire de mouvements avec liaisons dans un champ extérieur. 
Deux masses différentes sont reliées par une corde inextensible passant sur une poulie. Le mouvement des masses est 


uniformément accéléré. 


L’unique équation de Lagrange s'écrit alors trivialement: 


CAE + ja ol 
aor VERMET gy 


d’où on déduit bien évidemment un mouvement uniformément accéléré avec l'accélération (mı — 
m2)g/(mı + ma) 

Pour un exemple aussi trivial, l’écriture du formalisme lagrangien n’apporte pas de simplification 
décisive. Il eut été aussi simple d’écrire, pour ce problème à un seul degré de liberté, le théorème 
de l’énergie cinétique. En revanche, l’écriture du principe fondamental de la dynamique nous aurait 
contraint à faire intervenir des inconnues supplémentaires: les tensions des fils. La puissance de 
l'écriture lagrangienne ne peut s'exprimer que sur des problèmes un peu plus complexes. 


= (m2 mi) , (1.14) 


Deuxième exemple 


Nous considérerons dans ce paragraphe l’exemple du double pendule (voir figure 1.1). Notons tout 
de suite que la mise en équations de ce problème est très pénible par les techniques standard de 
mécanique. Il faut en effet faire intervenir la tension des fils, dont on ne se débarrasse qu’au prix de 
manipulations fastidieuses. Notons aussi que, pour ce problème à deux degrés de liberté, le théorème 
de l’énergie cinétique ne nous est d’aucune utilité. 

Nous allons écrire les équations de Lagrange. Les deux coordonnées généralisées q1 et q2 coïncident 
avec les angle 01 et 02 que les pendules font avec la verticale. L'écriture des positions et vitesses des 
deux masses en fonction des coordonnées généralisées et des longueurs lı et l2 des deux pendules, ne 
présente aucune difficulté. On en déduit les expressions des énergies cinétiques et potentielles: 


T = h+ 
1 . 
T = zmiði (1.15) 
1 ; ; As 
D = zm (20? + 1202 + 21112 cos(01 — 02) 16| (1.16) 
U = U +U? 
U; = —migl cos(01) (1.17) 


U2 = —maglo cos(02) — məglı cos(01) , (1.18) 
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d’où on tire l'expression de la fonction de Lagrange L. L'écriture des deux équations de Lagrange 
ne pose alors d’autre difficulté qu’algébrique. La mise en équations de ce problème, pratiquement 
impossible en appliquant simplement le principe fondamental de la dynamique, ne présente aucune 
difficulté avec l’approche lagrangienne. 

La résolution explicite du système différentiel obtenu est toutefois impossible. Il s’agit en effet 
d'équations non linéaires couplées (à cause des termes en cos). On ne peut obtenir de solutions 
explicites, comme dans tous les problèmes de pendules, que dans le cadre d’une approximation linéaire, 
valide dans le domaine des petites oscillations. Nous donnons ici seulement les étapes essentielles du 
calcul, dont les détails seront facilement retrouvés par le lecteur. Les équations de Lagrange pour 01 
et 02 s'écrivent respectivement après linéarisation: 


(mi + m2)hô + molo0> + (mi + m2)g61 
1202 + 101 + g02 


0 (1.19) 
0. (1.20) 


Un tel système de deux équations linéaires à coefficients constants se résout par les méthodes standard. 
Les solutions sont des combinaisons linéaires de solutions en exp(—iwt). Les valeurs possibles de w 
sont celles qui annulent le déterminant caractéristique: 


(m1 + m2)(g — hw?) —malow? 


a g= bus (1.21) 


On obtient alors une équation bicarrée en w. Les solutions s'écrivent +w et +w. La solution 
générale est alors une superposition de deux mouvements oscillatoires aux fréquences w1 et w2, de 
phase et d’amplitudes arbitraires. DL’écriture explicite de ces phases et amplitudes en fonction des 
conditions initiales est pénible, mais sans difficultés. 

La recherche des deux fréquences w1 et w2 est un exemple particulièrement simple de recherches de 
“modes propres” dans des systèmes d’oscillateurs couplés. Très généralement, un système d’oscillateurs 
linéaires couplés possédant p degrés de liberté, admet p fréquences propres. Chacune de ces fréquences 
correspond à une configuration particulière des mouvements des degrés de liberté, conduisant à un 
mouvement purement harmonique (on pensera par exemple aux modes d’oscillations symétriques 
et antisymétriques de deux pendules couplés par un ressort). Dans le cas présent, il est instructif 
d'examiner les comportements asymptotiques des deux modes quand mı — œ ou m2 — 0, ce que 
nous laissons au lecteur. 


1.3.4 Lagrangien de particules chargées dans un champ 


Nous abordons ici un exemple très important d'écriture de fonction de Lagrange, d’abord en rai- 
son de son utilité pratique, ensuite en raison de l'usage que nous en ferons dans la suite du cours 
d’électromagnétisme. Nous utiliserons une démarche très pragmatique, en cherchant la forme la plus 
simple de la fonction de Lagrange qui redonne la force de Lorentz. 

Nous considérerons donc un ensemble de N particules, que nous supposerons décrites par leurs 
cordonnées cartésiennes standard (la généralisation à d’autres systèmes de coordonnées ne posant 
que des problèmes algébriques) ra. Ces particules, chargées, sont placées dans un champ électrique 
E et un champ magnétique B, imposés de lľextérieur. Pour alléger les notations, nous poserons 
Ea = E(ra,t) et Ba = B(ra,t). Nous introduirons enfin les potentiels vecteur Aao = A(ra,t) et 
scalaire V, = V (ra, t) permettant de calculer les champs par les relations: Ea = —-0A,/ôt — VV, et 
Ba = V x Aa, où les dérivées spatiales sont à prendre par rapport à la position de la particule œ. 
Notons que la dérivée temporelle du potentiel vecteur est une dérivée partielle. Le champ électromoteur 
ne fait en effet intervenir que la dépendance explicite en temps du champ magnétique. 

Le principe fondamental de la dynamique pour la particule œ s'écrit alors: 


Ma = Fa = qal(Ea + Va x Ba). (1.22) 
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Nous allons transformer cette équation pour la mettre sous une forme qui rappelle celle d’une équation 
de Lagrange, ce qui nous permettra d’intuiter une forme simple pour la fonction de Lagrange de ce 
problème. 

En faisant intervenir l'expression des champs en fonction des potentiels, on peut écrire: 


Fa = Qa (a + Va X (V x Aa) — vva) ! (1.23) 
En place de la dérivée partielle par rapport au temps de Aa, on souhaite faire apparaître une dérivée 
totale par rapport au temps (rappelons que, dans les équations de Lagrange, les dérivées par rapport 
au temps sont totales). La variation de Aa par rapport au temps provient de deux causes. D’abord, 
il peut exister une variation explicite du potentiel vecteur par rapport au temps (exprimée ci-dessus 
par la dérivée partielle par rapport au temps). Même en l’absence de cette dépendance explicite en 
temps, le potentiel vecteur “vu” par a particule q varie en raison du mouvement de la particule dans le 
champ inhomogène. La variation correspondante peut s’écrire simplement (Va - V)A,, terme parfois 
nommé “dérivée hydrodynamique”. On a alors: 


dAa Aa 
d ôt 


+ (Va: V)Aa ; (1.24) 


et donc 


dA, 
Fa = qa (- i + (Va: V)Aa + Va X (V x Aa) — vva) ; (1.25) 


On reconnaît dans les deux termes centraux deux des termes du développement de Vr, (va: Aa). Les 
deux autre termes de ce développement qui font intervenir des dérivées partielles de v, par rapport à 
la position de la particule œ sont manifestement nuls. On obtient donc finalement: 


dAa 
dt 


Fa = da (- EVA: val) (1.26) 


En réécrivant alors le premier terme de (1.22) sous la forme: 


d 
a Vve Mava (1.27) 
et en remarquant que 
dA d 
T E gy ve Aa Va (1.28) 
on peut mettre le principe fondamental sous la forme: 
d 1 2 
gyve 9 7aVa T da A a Va = -la V ra [Va z A ; Val 
1 
Vra [jmavè — Ga(Va — Aa ` Va) | , (1.29) 


le gradient par rapport à la position de l'énergie cinétique étant évidemment nul. De la même manière, 
on peut ajouter dans le gradient du membre de gauche un terme proportionnel au potentiel, qa Va, 
qui ne dépend manifestement pas des vitesses. On obtient alors la forme de l'équation de Lagrange 
en coordonnées cartésiennes, à condition de poser: 


L= X [To — GaVa + qaÅa : Vol - (1.30) 


Nous admettrons que cette forme du lagrangien est effectivement convenable. Quelques remarques 
s'imposent à ce point: 
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Le terme “d'énergie potentielle” que nous obtenons ici dépend explicitement de la vitesse des 
particules. Nous retrouvons ici, sous une autre forme, la non conservativité des forces électroma- 
gnétiques: l’énergie mécanique totale n’est pas constante dans le cas le plus général. Ce n’est 
que si le potentiel vecteur est indépendant du temps (au sens d’une dérivée partielle par rapport 
au temps) et de plus uniforme que le dernier terme du lagrangien se ramène à une dérivée totale 
(celle de Aa'ra), qui peut être oubliée. Le potentiel électrostatique joue alors le rôle d’une vraie 
énergie potentielle, ne dépendant que des positions des particules. Ce n’est donc que dans le 
cadre de l’électrostatique que les forces électromagnétiques sont conservatives, un résultat bien 
connu sur lequel nous jetons ici un éclairage nouveau. Notons que la non conservation de l’énergie 
mécanique ne signifie pas une violation de la conservation de l’énergie totale. Nous verrons en 
effet en relativité que l’énergie et l’impulsion totales sont toujours conservées, à condition de 
faire intervenir le champ dans le bilan. 


Encore une fois, les champs sont ici imposés de l’extérieur, et ne font pas partie des variables 
dynamiques du problème. Pour traiter le problème complet de particules en interaction avec 
leur propre champ, il faudrait adjoindre aux équations de Lagrange que nous venons d’écrire 
les équations de Maxwell permettant de calculer les champs en fonction des mouvements des 
particules. Ce n’est que dans la partie suivante que nous apprendrons à le faire de manière 
consistante dans un formalisme lagrangien englobant le champ. 


L'expression de notre lagrangien fait explicitement intervenir les potentiels. Il nous faut donc 
vérifier que les équations de Lagrange ne sont pas modifiées quand on effectue une transformation 
de jauge sur les potentiels. Rappelons en effet que les champs “physiques” ne sont pas modifiés 
si on effectue la transformation de “jauge”: 


A — A'=A+VÉ (1.31) 
0® 
! —_ —— 

V > VV- z> (1.32) 


où @ est une fonction arbitraire de l’espace et du temps. Le nouveau lagrangien L’ s'exprime 
alors facilement en fonction de l’ancien, en notant ġa = (ra, t): 


Ll = L +9 da (Se + (Voa): va) 
L+ > qa (Se + (Va: Va) 


da 
= L+ÿ Ga , (1.33) 


en reconnaissant dans les deux derniers termes de l'équation centrale la dérivée totale par rapport 
au temps de ġa, somme de la dérivée partielle et de la “dérivée hydrodynamique”. L’ et L ne 
diffèrent donc que par une dérivée totale par rapport au temps qui ne modifie pas le contenu 
des équations de Lagrange, comme nous nous y attendions. 


1.4 Généralisations 


Nous traiterons dans ce paragraphe de deux extensions du formalisme lagrangien?. Nous traiterons 


d’abord le cas de forces (non électromagnétiques) ne dérivant pas d’un potentiel. Nous verrons par 
exemple comment traiter le cas des forces de frottement dans le cadre d’un principe variationnel. Dans 


3Les résultats de ce chapitre ne seront pratiquement pas utilisés dans la suite du cours. On pourra donc le sauter en 
première lecture 
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la seconde partie de ce paragraphe, nous nous pencherons sur le cas des systèmes où les mouvements 
sont sujets à des liaisons non holonomes. Nous verrons comment on peut facilement incorporer de 
telles liaisons dans le formalisme lagrangien. 


1.4.1 Forces ne dérivant pas d’une énergie potentielle 


On suppose connues les forces Fa s’exerçant sur la particule œ. Notre problème est de trouver une 
expression variationnelle de la dynamique et d’en déduire les équations de Lagrange correspondantes, 
même si les forces ne dérivent pas d’une énergie potentielle. 

Revenons d’abord au cas des forces conservatives, pour mettre le principe de moindre action sous 
une forme un peu différente. Tel que nous l’avons écrit, le principe de moindre action stipule que 
ôS — 6 Je Ldt = 0, si on estime la variation de l’action entre la trajectoire effectivement suivie et une 
autre trajectoire infiniment voisine compatible avec les conditions aux limites. On peut aussi écrire 
[2 (ôT — ôU) dt = 0. Si on note ôr, l’écart pour la particule a entre la trajectoire normale et la 


trajectoire variée, on a ÔU = — ÿ;,F, : ra, le principe de moindre action s’écrivant alors 
t2 
f (ST +X Fa-ôra) dt =0. (1.34) 
tı a 


On peut exprimer les ôr, en fonction des accroissements ôq; des coordonnées généralisées: 


L Fa óra =)D) Fa aig, (1.35) 


Posons alors 


ra 
Qi = X Fa TA (1.36) 


Nous désignerons Q; comme la force généralisée correspondant à la coordonnée généralisée g;*. Avec 
cette notation, le principe de moindre action s'écrit: 


J © (OT + D Qiôœ) dt = 0. (1.37) 
ti F 


Nous avons établi cette formulation en supposant que les forces dérivaient d’une énergie potentielle. 
Nous admettrons qu’elle reste valable même si ce n’est pas le cas. Nous allons maintenant dériver de 
cette expression du principe de moindre action les équations de Lagrange correspondantes. L’approche 
est très similaire à celle que nous employâmes dans le paragraphe 1.2. T étant une fonction des q; de 
leurs dérivées et du temps, on peut écrire 

oT oT 


D 
ô 0 on 


Une intégration par parties élémentaire donne alors: 


t OT ƏT | t2 d ƏT 
qi 


—óôġi dt = | — â — 2e 
t ği À É 1 tı dt 0 


6 . (1.38) 


ôqi dt . (1.39) 


Le terme tout intégré est identiquement nul, puisque les deux trajectoires coïncident aux limites. 
En reportant cette expression dans le principe de moindre action et en écrivant que lintégrale doit 
s’annuler quelles que soient les variations des coordonnées indépendantes qi, on obtient les équations 
de Lagrange: 


— -Z =Q. (1.40) 


4«Force” qui n’a pas nécessairement la dimension d’un force et qui ne peut être en général attribuée à une particule 
particulière. 
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L'écriture de ce système d'équations et sa résolution ne présente aucune difficulté si on connaît les 
forces s’exerçant sur les particules. 
Dans le cas particulier où la force généralisée Q; peut se mettre sous la forme: 


ðU d OU 


qS 7 WE” 


où U= U (qi, di, t) ; (1.41) 


léquation de Lagrange (1.40) se met sous la forme standard avec L = T — U. On retrouve ainsi le 
cas des forces conservatives mais aussi le cas des forces électromagnétiques. Notons qu’il n’est pas 
toujours possible de mettre la force généralisée sous cette forme (nous verrons que c’est le cas dans 
l'exemple traité à la fin de ce paragraphe). Soulignons aussi que nous permettons à U de dépendre des 
vitesses. Il est donc possible (comme nous l’avons vu pour les forces électromagnétiques) d’englober 
certaines forces non conservatives dans des équations de Lagrange sous la forme standard. 

Très souvent, une partie des forces dérive d’un potentiel (au moins au sens généralisé exprimé par 
l'équation 1.41). Dans ce cas, en appelant U “l'énergie potentielle” associée aux forces en dérivant et 
Qi; les forces généralisées correspondant aux forces ne dérivant pas de U, on écrira les équations de 
Lagrange sous la forme: 

E — . = avec L=T-U. (1.42) 

Nous appliquerons, à titre d'exemple, cette démarche à un système où s’exercent des forces de 
frottement proportionnelles à la vitesse. De telles forces ne sont manifestement pas conservatives. 


Nous poserons donc (en oubliant pour l'instant toutes les autres forces) Fa = —kaVa. Cette force 
peut s'écrire Fa = —Vy, F à condition de poser 
1 2 
F= 5 2 kava | (1.43) 
[07 


Les forces généralisées Q; s’écrivent: 


Or 
U= V se: (1.44) 
a qi 
En remarquant alors que: 
ði Ô 
nn (1.45) 
ôdi dd 
on à 
OVa OF 
PE NV Re 1.46 
Qi > Va ği ği ( ) 
On voit bien qu’une telle expression n’est pas compatible en général avec (1.41). 
Les équations de Lagrange en présence de frottements visqueux s’écrivent finalement: 
d ðL ƏL 0F 
=0, (1.47) 


dog Où 0% 


où L tient compte des éventuelles forces “conservatives”. 

Pour un mouvement unidimensionnel d’une particule soumise uniquement à une force de frotte- 
ment, on a F = ki?/2, et L = mà?/2. L'équation de Lagrange s’écrit donc më + kt = 0, ce qui 
coïncide bien avec l’expression du principe fondamental (encore une fois, le formalisme lagrangien 
n'apporte rien pour un problème aussi élémentaire). 
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1.4.2 Cas des liaisons non holonomes 


Nous traiterons ici le cas de systèmes où les variables dynamiques peuvent être reliées par des liaisons 
non holonomes, c’est à dire ne se mettant pas simplement sous la forme de relations entre les co- 
ordonnées cartésiennes (éventuellement dépendant du temps). Nous nous contenterons de traiter le 
cas où les contraintes s'expriment par des relations entre les vitesses des différentes particules com- 
posant le système. Ce cas permet en effet de traiter de la plupart des liaisons du type “roulement 
sans glissement” dont l’importance est considérable en mécanique du solide. Les techniques que nous 
introduirons ici peuvent être étendues à d’autres types de contraintes. 

Nous procéderons en deux étapes. Nous ne tiendrons d’abord compte que des liaisons holonomes, 
en introduisant des coordonnées généralisées qui seraient indépendantes si ces liaisons étaient les seules. 
Nous reviendrons sur le principe de moindre action pour montrer que l’écriture des équations de La- 
grange en termes de ces variables dépendantes est impossible. Nous verrons ensuite qu’en introduisant 
des variables supplémentaires, les multiplicateurs de Lagrange, on peut obtenir un système d'équations 
différentielles indépendantes permettant, au moins en principe, de résoudre le problème. Nous in- 
terpréterons physiquement, enfin, ces variables supplémentaires et montrerons qu’elles décrivent les 
forces généralisées associées aux liaisons non holonomes. 

En tenant compte uniquement des liaisons holonomes, nous définissons un ensemble de n coor- 
données généralisées q;. Pour fixer les idées, nous supposerons que toutes les forces (à part celles 
associées aux liaisons) dérivent d’une énergie potentielle, éventuellement généralisée comme au para- 
graphe précédent. Les liaisons non holonomes font que ces n coordonnées généralisées ne sont pas 
indépendantes. Nous supposerons qu’il existe m relations entre elles (m liaisons) et nous supposerons 
que ces relations relient les dérivées des q; par rapport au temps et peuvent donc s’écrire: 


n 
X axdgr+audt=0,  (1=1..m), (1.48) 
k=1 
où les coefficients arg sont indépendants du temps. 
Reprenons maintenant la dérivation des équations de Lagrange à partir du principe de moindre 
action, comme dans le paragraphe 1.2. La comparaison de l’action sur la trajectoire effectivement 
suivie et sur la trajectoire variée n’est pas modifiée, et on écrit: 


t2 ðL d ðL 
ôS = — — —— | ôq dt. 1.49 
i > a og | Lis 


De cette équation, on ne peut déduire des équations de Lagrange pour les qg. Ce ne sont pas en effet 
des variables indépendantes, dont les accroissements puissent être choisis arbitrairement. Les qg sont 
en fait reliés par les m relations: 


5 aikôik =0. (1.50) 
k 


Elles résultent simplement de (1.48) en constatant que les ay s’éliminent quant on écrit les liaisons entre 
les accroissements des dérivées entre trajectoire de référence et trajectoire variée. Par intégration, les 
sommes `} akôqk sont constantes. Les accroissements de trajectoire s’annulant aux instants initiaux 
et finaux, cette constante est nulle et on a finalement: 


X axôgx = 0. (1.51) 
k 


En d’autres termes, nous avons a priori trop d'équations pour les n-m variables vraiment indépendantes. 
Plutôt que d'éliminer des variables superfétatoires, nous allons introduire m inconnues supplémentaires 
(dont nous verrons qu’elles ont un sens physique). Nous considérons donc m fonctions supplémentaires 
du temps, pour l'instant arbitraires, A(t). Elles vérifient bien sûr: 


XI axôgr = 0 , (1.52) 
k 
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et donc 


t2 
f DAT TT EE (1.53) 
1 


k,l 


En introduisant cette relation dans l’expression du principe variationnel, on le met sous la forme: 


2 À ðL d ðL m 
ôS = | êL d ôL | S 
ti k=l E dt ðġk i 2 ai Ôqr dt (1.54) 


Prenons comme variables indépendantes les n — m premières coordonnées généralisées. Au moins 
formellement, les m dernières peuvent être calculées en fonction de celles ci. Nous choisissons alors les 
m fonctions À, de telle manière que: 


ƏL dôðL L 
EN a D. 1.55 
Oq dt ddr D lalk ( ) 


pour toutes les valeurs de k entre n — m + 1 et n. Ce choix est toujours possible. Les À; sont en effet 
définis comme solutions d’un système linéaire dont le déterminant, formé des coefficients ay, est non 


nul si les m relations exprimant les contraintes non holonomes sont linéairement indépendantes. 
Le principe variationnel s'écrit alors: 


t2 M | OL d OL w 
i= — — — ire | 1. 
a 2 Z di ddk + 2 Alaik | Ôqk dt (k m) ( 56) 


Les m premières coordonnées et leurs accroissements étant indépendants, cette intégrale n’est nulle 
que si les m quantités entre crochets sont identiquement nulles sur la trajectoire effectivement suivie. 
En ajoutant à ces m équations de Lagrange les n — m relations (1.55) et les m contraintes (1.48), on 
obtient enfin un système de n + m équations à n + m inconnues (qi et M): 


ðL d ôL Æ 
— -+Y Max =0, (k= issn) 


odk dt åk 1=1 i à 
X argk + an = 0 , (l=1...m). 
k=1 


dont la résolution donne la trajectoire effectivement suivie. 

Nous avons pu tenir compte des liaisons non holonomes supplémentaires en introduisant des vari- 
ables additionnelles, ce qui n’est guère économique, surtout quand il s’agit de résoudre effectivement 
le système. Cependant, les À} possèdent une interprétation physique qui rend leur obtention impor- 
tante. Nous pourrions en effet “simuler” l'effet des liaisons non holonomes en appliquant des forces 
supplémentaires dans le système (tout mouvement peut toujours être vu comme résultant de forces 
et pas de contraintes). En fait, ces forces ont une réalité physique. Elles correspondent, par exemple, 
aux frottements responsables d’un “roulement sans glissement”. Ces forces, ne dérivant pas en général 
d’un potentiel, doivent intervenir dans les équations de Lagrange sous la forme de “forces généralisées” 
Qg. Les n équations de Lagrange de ce système sans contraintes supplémentaires s’écriraient, avec la 
même fonction de Lagrange: 

OL d OL 


x on #0, (k=1...n). (1.58) 


En comparant ces équations avec celles de (1.57), on voit que les Qg doivent être définis par: 


Qr = X Mak . (1.59) 


l=1 
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Figure 1.4: Roulement sans glissement d’un cylindre sur un plan incliné. Le mouvement est décrit a priori par deux 
coordonnées généralisées: la position du point de contact le long du plan et l’angle de rotation du cylindre par rapport à 
une référence arbitraire. Dans le cas d’un roulement sans glissement, ces deux coordonnées sont reliées par une relation 


non holonome. 


Les fonctions supplémentaires À; ne sont donc que des combinaisons linéaires des forces généralisées 
correspondant aux contraintes. Leur obtention à partir de (1.57) permet donc de calculer les forces 
de liaison, ce qui justifie amplement leur intérêt. 


Pour illustrer ce paragraphe, nous considérerons un problème trivial de dynamique des solides: 
le roulement sans glissement d’un cylindre creux (la masse est entièrement distribuée sur la surface 
extérieure) sur un plan incliné" (voir figure 1.4). Si on ne tient compte que des liaisons holonomes 
(le cylindre est posé sur le plan, il ne se déplace que dans la direction x...), nous pouvons décrire le 
mouvement par deux coordonnées généralisées. qı = x est simplement l’abscisse du point de contact 
sur le plan, g = 0 langle de rotation du cylindre autour de son axe. Le roulement sans glissement 
impose l'unique contrainte non holonome supplémentaire RÔ + à = 0, où R est le rayon du cylindre. 
Nous n’avons donc que deux coefficients ax: a11 = 1 et a12 = R. 


La fonction de Lagrange est L = T — U. L'énergie cinétique s'écrit: 
1 1 
T= zMä + MR (1.60) 


où M est la masse du cylindre, et MR? son moment d'inertie par rapport à son axe. On a aussi, dans 
le champ de pesanteur, U = —Mgqı sina. Avec une seule liaison, il existe un seul multiplicateur de 
Lagrange A1. Les deux équations de Lagrange et la contrainte nous fournissent alors un système de 3 
équations à 3 inconnues: 


OL d OL 

nn don + A1 = 0 

8 d ôL (1.61) 
RE +) CE 

Ôg2 dt O2 | 

di — RG: — 0 


5Ce problème est en fait si élémentaire qu’il peut être traité en quelques lignes par le théorème de l'énergie cinétique. 
P q P quelq 8 P 8 
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On en déduit immédiatement: 
Mi — Mgsin a — À = 0 


MR?G2 — R\ = 0 (1.62) 


di + RG — 0 
Après quelques manipulations algébriques sans intérêt, on obtient un mouvement uniformément ac- 
céléré pour x avec l’accélération gsin(a)/2, un résultat bien connu de dynamique standard, et à = 
—Mgsin(a)/2. La force généralisée correspondant à la contrainte de roulement, Q: lui est égale. 
Enfin, on a simplement Qı = F, où F est la valeur algébrique de la force de frottement s’exerçant, 
tangentiellement au cylindre, au point de contactf. 


1.5 Lagrangien et lois de conservation 


Dans tout phénomène physique il existe des quantités conservées au cours de l’évolution. Ces quan- 
tités, aussi appelées en mécanique “intégrales premières du mouvement”, jouent un rôle important 
en fournissant des renseignements sur la dynamique, même si la trajectoire n’est pas explicitement 
connue. Par exemple, on peut donner beaucoup de caractéristiques générales des collisions en écrivant 
la conservation de l’impulsion ou de l’énergie, sans même connaître de façon détaillée la loi régissant 
l'interaction entre les particules”. 

Parmi toutes les quantités conservées dans le mouvement, certaines sont triviales et d’autres sans 
interprétation physique directe. Certaines en revanche, comme l’énergie ou l’impulsion, sont directe- 
ment reliées à des propriétés physiques très fondamentales. Comme nous le verrons, il existe en 
général une quantité conservée associée à chaque invariance du système dans une transformation (à 
chaque propriété de symétrie, au sens le plus large). Nous verrons par exemple que la conservation de 
l’impulsion découle directement de l’invariance par translation dans l’espace. 

Avant d’entrer dans le détail de ces lois de conservation, prouvons d’abord l’existence de quan- 
tités conservées dans une évolution lagrangienne. Nous considérerons dans tout ce paragraphe un 
système exempt des complications et généralisations introduites au paragraphe précédent. Nous ne 
considérerons donc que des liaisons holonomes. Comme les équations de Lagrange du système pour 
les n coordonnées généralisées q; sont du second ordre en temps, la solution explicite du problème fait 
intervenir 2n constantes représentant les conditions aux limites (valeurs des coordonnées aux deux 
extrémités de la trajectoire). L'une de ces constantes peut toujours être mise sous la forme d’une 
origine arbitraire to sur le temps. La solution la plus générale peut donc s’écrire: 


qi(é + to; Ci, YTES Con-1) „i(t + to, Ci, ie Con-1) ; (1.63) 


où to et les Ck sont les 2n constantes. Le mouvement étant déterminé, on peut inverser ces relations 
entre les 2n constantes et les cordonnées, et écrire: 


L'origine du temps joue un rôle particulier, et n’est pas à proprement parler une intégrale première 
du mouvement. En revanche, les 2n — 1 Ck sont bien des fonctions de l’état dynamique du système 
qui restent constantes au cours du mouvement. Il y a donc, de façon très générale, au moins 2n — 1 
intégrales premières indépendantes dans un mouvement à n degrés de liberté. 

Dans la suite de ce paragraphe, nous allons nous concentrer sur trois d’entre elles: l'impulsion, 
l'énergie et le moment cinétique et montrer comment elles se déduisent de propriétés de symétrie du 
lagrangien. 

6Ce résultat peut être établi immédiatement à partir de l'accélération du mouvement 
TOn consultera avec profit le Landau de Mécanique sur ce problème que nous n’aborderons pas du tout dans ce cours. 
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1.5.1 Invariance par translation dans le temps: énergie 


Nous considérons ici un système isolé. La première conséquence est que la fonction de Lagrange ne 
peut dépendre explicitement du temps. Il n’y a rien en effet dans l’environnement du système pour 
fixer une origine de temps. Nous supposerons de plus que les équations dynamiques de ce système 
sont des équations de Lagrange standard (sans forces généralisées). On exclut donc explicitement le 
cas où le système serait soumis à des forces de frottement (difficilement compatibles avec l’hypothèse 
d’un système isolé). 

On a donc L/ðt = 0. La dérivée totale de L par rapport au temps, somme de sa dérivée partielle 
et des variations temporelles provenant de la variation des coordonnées généralisées, peut donc s’écrire: 


dL OL OL 
— = —; —; . 1.65 
En utilisant les équations de Lagrange vérifiées par L et les q;, on met cette dérivée sous la forme: 


dL ðL. d OL. 
dt T 2 agë T 2 nog” 


d OL 
ER | 1.66 
dt | - kal (ee 
On trouve ainsi que la quantité 
OL 
ES —; — L 1.67 
> agt (1.67) 


est une constante ou intégrale première du mouvement. Notons tout de suite qu’elle a la même 
dimension que L, c’est à dire celle d’une énergie. Pour préciser son interprétation physique, considérons 
le cas où les forces internes au système dérivent d’une énergie potentielle U ne dépendant que des qi. 
On a alors L = T (qi, di) —U. T est très généralement une forme quadratique des dérivées temporelles 
des coordonnées généralisées. T vérifie donc le théorème d’Euler: 


T= y a , (1.68) 


Comme U ne dépend que des qi, 0L/O; = OT /dd;, et donc 
EE E E (1.69) 


La quantité E coïncide donc dans ce cas simple avec l'énergie mécanique totale du système. Dans un 
cas plus complexe, nous admettrons donc que l'énergie mécanique du système est définie comme E et 
est donc une intégrale première du mouvement. Cette loi de conservation apparaît ici très clairement 
comme une conséquence directe de l’invariance par translation dans le temps. 

L’hypothèse du système isolé exclut bien sûr de traiter le cas d’un ensemble de particules en 
interaction avec un champ électromagnétique extérieur. Il existe cependant un cas où on peut définir 
une énergie mécanique conservée pour un tel système: celui d’un champ statique. Les équations de 
Lagrange s’écrivent en effet normalement avec le lagrangien 


L= NTa — la Va + laÅa: Va , (1.70) 


et les notations du paragraphe 1.3 (pour simplifier les écritures nous supposerons ici que les coordonnées 
généralisées sont les coordonnées cartésiennes). A ne dépendant que de la position des particules et L 


8Seulement dans le cas où les contraintes ne font pas explicitement intervenir de dépendance temporelle. 
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étant explicitement indépendant du temps, le raisonnement précédent s’applique en entier. L'énergie 
mécanique s'écrit simplement dans ce cas: 


E=) ViL.va-L. (1.71) 
Elle est conservée et on a: 
NO Vvs L: Va =2T + qa Vya (Aa : Va): Va = 2T +Y GaAa : Va : (1.72) 
Et donc: 
ESTY gas (1.73) 


résultat évident de statique. 


1.5.2 Translation spatiale: conservation de l’impulsion 


Nous considérons, comme dans le paragraphe précédent, un système isolé régi par des équations de 
Lagrange sous la forme standard. La dynamique est visiblement invariante si on déplace globalement 
le système. Il n'existe rien dans l’environnement pour fixer une origine des coordonnées. Comme ce 
déplacement est une quantité vectorielle, on a en fait trois conditions d’invariance d’où on peut déduire 
la conservation de trois quantités. 

Nous allons d’abord supposer que le système est décrit par ses coordonnées cartésiennes. Les 
coordonnées généralisées posent en effet problème, puisqu’une translation spatiale n’a pas forcément 
une expression simple en termes de ces coordonnées. Nous examinerons ce cas à la fin du paragraphe. 
Nous considérons une translation d'ensemble du système, qui s'écrit: 


ro — ra +E. (1.74) 


La translation € est supposée petite à l’échelle des longueurs caractéristiques du système. On peut 
aisément exprimer la variation de la fonction de Lagrange dans cette translation. Puisque les vitesses 
ne changent pas, 
ôL=S Vil'e. (1.75) 
Q 


Cette variation ne peut être nulle quel que soit € que si 


SV, L=0. (1.76) 


En utilisant les équations de Lagrange en coordonnées cartésiennes, on met cette condition sous la 
forme: 


dP 
— =0 1.77 
T , (1.77) 
avec 
PEN Vab: (1.78) 


Nous trouvons donc bien une intégrale première vectorielle pour le mouvement. Dans le cas où 
L=T — U, U ne dépendant que des ra, Vva L = Vv, T et 


PNY Mava, (1.79) 


indiquant que cette intégrale première vectorielle n’est autre que l'impulsion ou quantité de mouvement 
totale. 
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Notons à ce point que l’impulsion totale est définie en terme du gradient par rapport aux vitesses 
et ne coïncide pas forcément avec l’expression habituelle 5}, MaVa. Ce sera en particulier le cas en 
électromagnétisme où le potentiel vecteur entre dans la définition de l’impulsion. Comme seuls des 
potentiels vecteur et scalaire uniformes (c’est à dire des champs nuls) seraient compatibles avec les 
hypothèses actuelles, nous n’examinerons pas ce cas pour l'instant. 

Etudions maintenant le cas où l’existence de contraintes impose le recours à des coordonnées 
généralisées. L’invariance de l’impulsion totale ne devrait pas dépendre de l’existence de contraintes 
internes au système. Toutefois, la conservation de P ne peut plus être établie aussi simplement, 
puisqu’une translation n’a pas nécessairement une expression simple en termes de coordonnées géné- 
ralisées. Définissons quand même, par analogie avec le cas précédent, une “impulsion généralisée” p; 
associée à la coordonnée généralisée q; par 


OL 
Oi 
Nous verrons que des impulsions généralisées jouent un rôle central dans le formalisme hamiltonien. 

En attendant, notons que l’énergie mécanique totale peut se réécrire simplement: 


E=) pi -L. (1.81) 


Pi (1.80) 


Supposons maintenant que la fonction de Lagrange L ne fasse pas explicitement intervenir la coor- 
donnée qi: 

ôqi 
Nous dirons alors que q; est une coordonnée “cyclique”. La simple écriture de l'équation de Lagrange 
pour qi donne alors: 


(1.82) 


ij (1.83) 
dt 
L’impulsion associée à une coordonnée cyclique est conservée. 

Revenons maintenant à l’invariance par translation. Trois des coordonnées généralisées d’un systè- 
me isolé peuvent être prises égales aux trois coordonnées cartésiennes du centre d'inertie. De manière 
évidente, par invariance par translation, ces trois coordonnées sont cycliques. Il en résulte que les trois 
impulsions associées sont des intégrales premières du mouvement, formant un vecteur qui n’est autre 
que l’impulsion totale. 


1.5.3 Invariance par rotation: moment cinétique 


Nous appliquerons ici une méthode très semblable à celle du paragraphe précédent au cas où le système 
et donc sa fonction de Lagrange sont invariants dans une rotation quelconque autour d’un axe défini 
par un vecteur unitaire u. C’est en particulier le cas pour un système isolé. Nous examinerons ici 
uniquement le cas où le système est défini par les coordonnées cartésiennes des particules. 

Nous considérons une rotation infinitésimale d’un angle 06 autour de l’axe. En posant 09 = 6pu, 
nous pouvons écrire les variations des positions et vitesses dans cette transformation ôr = 6@ x r et 
ôv = 0 x v. L’invariance par rotation impose que la variation ôL de la fonction de Lagrange soit 
nulle dans cette transformation. Or 


ÔL =X Vra L Sra + Vv, L- Va : (1.84) 
Q 
En utilisant les équations de Lagrange, qui s’écrivent Vr, L = pa, où Pa est l'impulsion de la particule 


a, on peut écrire: 


ÔL = X` [ba: (P X ra) + pa: (69 X va)] 


(02 
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De [0P - (ra X Pa) +G : (Va X Pa)] 


Qi 


dL 
= Üb —, 1.85 
+ (1.85) 
où nous avons posé 
IS en. (1.86) 
Q 


La fonction de Lagrange ne peut être conservée pour une rotation arbitraire que si la composante du 
vecteur L sur l’axe de rotation est une intégrale première du mouvement. Nous retrouvons ainsi la 
conservation du moment cinétique par rapport à un axe. 

On peut voir aussi, plus simplement, dans ce cas, que le lagrangien est indépendant d’une coor- 
donnée généralisée décrivant le mouvement de rotation autour de l’axe. Il est donc cyclique dans cette 
coordonnée. L’impulsion généralisée associée à cette coordonnée et constante. Il est facile de vérifier 
qu’il s’agit bien de la composante le long de cet axe du moment cinétique. 

Dans le cas où le système est invariant dans une rotation arbitraire autour d’un axe quelconque, 
ce qui est le cas d’un système isolé, il en résulte que le moment cinétique L est une constante du 
mouvement. 


1.6 Action en fonction de la trajectoire 


Nous allons utiliser les définitions du paragraphe précédent pour tenter d'exprimer simplement la 
dépendance de l’action S calculée sur la trajectoire effectivement suivie en fonction des coordonnées 
spatiales et temporelles du point de départ et du point d’arrivée. En d’autres termes, l’objet de ce 
paragraphe est de donner les dérivées partielles de S(q(1), t1, q(2), t2), action sur la trajectoire suivie 
considérée comme une fonction des conditions aux limites. Ces résultats nous seront fort utiles dans 
la suite du cours. Ils nous permettront aussi de jeter un regard nouveau sur les lois de conservation 
associées aux invariances. 


1.6.1 Dépendance en position 


Nous considérons ici la variation de S en fonction de la position du point d’arrivée. Nous en déduirons 
immédiatement la dépendance vis à vis du point de départ. Nous considérons donc ici deux trajectoires 
effectivement suivies entre les instants t: et t2. La première (trajectoire de référence) s’effectue entre les 
valeurs g;(1) et g;(2) des coordonnées généralisées. La seconde entre les valeurs q;(1) et g;(2) + ôgi(2), 
où ôq;(2) est un accroissement infinitésimal de la position du point d’arrivée. Les trajectoires, par 
continuité, restent infiniment voisines pour tous les instants? et on écrira ôq;(t) l'écart entre elles. 

La variation de l’action en passant d’une trajectoire à l’autre, ôS, s’écrit simplement: 


t 
jo ar (1.87) 


ti 


où ôL est la variation de la fonction de Lagrange entre les deux points à l’instant t. On suit alors un 
raisonnement identique à celui utilisé pour établir les équations de Lagrange. On écrit d’abord: 


ðL di, 
L=) ltt gg t (1.88) 


9Si la dynamique du système était chaotique, deux trajectoires très voisines aux points de départ et d’arrivée, peuvent 
s'écarter notablement l’une de l’autre. Comme nous manipulons des accroissements infinitésimaux, ce problème ne se 
pose pas. 
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et on reporte cette expression dans celle de ôS. Le terme faisant intervenir ôq; est alors intégré par 


parties. On obtient: 
2 


12 ðL d ÔL ƏL 
ôS = 3 2 E = ee ôqi dt 2 EI : (1.89) 


La trajectoire de référence que nous considérons ici est une solution des équations du mouvement. Les 
équations de Lagrange étant constamment vérifiées, l’intégrale dans l’expression ci-dessus s’annule 
identiquement. Il ne reste donc que le terme tout intégré, qui se réduit à: 


8S = Y` £ ôq; (2) . (1.90) 


De manière évidente, si nous avions considéré deux trajectoires différant d’une quantité infinitésimale 
au point de départ, nous aurions obtenu: 


ôS=-). ga tO . (1.91) 


Ces deux expressions nous donnent les dérivées partielles de l’action, considérée comme une fonction 
des coordonnées des points de départ et d’arrivée. En remarquant que OL/Od; = pi (impulsion 
généralisée), on écrira 


D Sp (1.92) 
A MER (1.93) 


On peut facilement retrouver, à partir de ce résultat, l’invariance de l’impulsion associée à une coor- 
donnée cyclique. Si q; est cyclique, la fonction de Lagrange ne dépend pas de q; et le mouvement doit 
être invariant dans une translation de la coordonnée qi. Considérons donc la translation infinitésimale 
qi — qi + €. La variation de l’action dans cette transformation est: 


os os 
a5 ON + aA — (pi(2) — pi(1))e , (1.94) 


d’où on tire immédiatement la conservation de p;. Dans le cas où les coordonnées cycliques sont celles 
du centre d’inertie, on retrouve la conservation de l’impulsion au sens habituel. 


1.6.2 Dépendance en temps 


Nous considérons maintenant la dépendance de l’action dans le temps d’arrivée t2. Nous considérons 
donc deux trajectoires effectivement suivies par le système. D’une, entre q(1),tı et g(2),t2 est la 
trajectoire de référence. L’autre coïncide avec la première jusqu’à l’instant t2 et continue ensuite 
pendant un intervalle de temps infinitésimal jusqu’à t2 + 0t2, les coordonnées étant alors q;(2) + ôq:(2). 
On peut écrire de manière évidente la variation de l’action entre ces deux trajectoires comme: 


AS = L(t2)ôt2 , (1.95) 
mais aussi comme: 


OS OS 


En effet l’instant du point d’arrivée et ses coordonnées varient. En utilisant les résultats du paragraphe 
précédent et en remarquant que ĝq;(2) = d;(2)ôt2, on peut écrire: 


Lt) = DE + En) (1.97) 
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En nous souvenant de la définition de l'énergie mécanique totale £!°, nous avons enfin: 


OS 
2 Lel). (1.98) 


En reproduisant le même raisonnement pour une variation de l’instant de départ, on obtiendrait de 
même: 


ðs 
ae = EU). (1.99) 


Avec ces deux expressions et les résultats du paragraphe précédent, nous connaissons toutes les dérivées 
partielles de l’action en fonction des conditions aux limites imposées à la trajectoire. 

Notons également qu’on peut retrouver facilement à partir de ces expressions la conservation de 
l'énergie mécanique. Si la fonction de Lagrange ne dépend pas explicitement du temps, l’action doit 
être invariante dans une translation temporelle globale infinitésimale. La variation de l’action dans 
cette translation s’écrivant évidemment S = (£(1) — E(2))ôt, on retrouve l’invariance de l'énergie 
mécanique. 


1.7 Deux théorèmes utiles 


Nous considérerons dans ce paragraphe le cas particulier important des énergies potentielles ho- 
mogènes, c’est à dire telles que: 


U(aqi,.-., aqn) = aU (q1, .--, qn) . (1.100) 
Ce cas, très spécifique, se rencontre en fait dans une grande variété de problèmes de mécanique: 


e Pour loscillateur harmonique unidimensionnel U = Kg?/2 est évidemment une fonction ho- 
mogène avec k = 2. Ce résultat est bien sûr valide aussi pour les oscillateurs multidimensionnels. 


e Le potentiel gravitationnel ou Coulombien en 1/r correspond à k = —1. 


e Le mouvement dans un champ uniforme (par exemple champ de pesanteur local) correspond 
enfin à k= 1. 


Le fait que U soit une fonction homogène a deux conséquences importantes que nous allons ex- 
aminer dans les prochains paragraphes. D'abord, on peut en déduire des lois d’échelle utiles fixant la 
dépendance relative de certains paramètres des trajectoires (par exemple la troisième loi de Kepler). 
La deuxième conséquence est le théorème du viriel, d’une grande importance en mécanique et physique 
statistique. 


1.7.1 Lois d’échelle 


Considérons une transformation d’échelle sur les coordonnées généralisées et le temps. Elle peut 
s'écrire: 


qi —> aqi (1.101) 
t — ht (1.102) 
10Nous n’avons fait dans ce paragraphe aucune hypothèse sur la dépendance en temps de la fonction de Lagrange. 


E n’est donc pas nécessairement une quantité conservée. En fait, plutôt que d'énergie totale, nous devrions parler de 
fonction de Hamilton (voir chapitre suivant). 
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On en déduit les transformations de quelques quantités: 


dE = 3 (1.103) 

U — aU (1.104) 
a 2 

T —> (5) T. (1.105) 


Pour établir la dernière ligne, il faut admettre que l'énergie cinétique ne dépend que des d; et pas de 
qi- C’est en particulier le cas en coordonnées cartésiennes standard. Nous supposerons cette condition 
remplie dans toute la suite du paragraphe. 

En général, le lagrangien L ne se transforme pas de manière simple. En revanche, dans le cas 
particulier où les facteurs d'échelle sur T et U sont les mêmes, c’est à dire si on choisit les facteurs 
d'échelle a et 8 de telle manière que: 


a = À, (1.106) 


où encore 


Dar e (1.107) 


la fonction de Lagrange est simplement multipliée par un facteur d’échelle. Un tel facteur est sans 
effet sur les équations du mouvement. A une trajectoire possible correspond donc après cette transfor- 
mation d’espace et de temps une autre trajectoire possible. Cette correspondance permet par exemple 
d'obtenir les lois reliant la période d’un mouvement à l’extension spatiale de la trajectoire. Appliquons 
ces arguments aux cas particulièrement importants de l’oscillateur harmonique et du mouvement grav- 
itationnel. 


e Pour l’oscillateur harmonique, k = 2. L’équation (1.107) est donc satisfaite pour n’importe quelle 
valeur de a à condition que 8 = 1. On obtient donc une trajectoire possible en multipliant la 
coordonnée spatiale par un facteur arbitraire et en laissant inchangée l’échelle de temps. On 
retrouve ainsi très simplement l’isochronisme des oscillations de l’oscillateur harmonique. 


e Pour le mouvement dans un champ gravitationnel uniforme, on a k = 1. L’équation (1.107) est 
donc satisfaite si 86 = ya. Deux trajectoires se correspondent donc si leurs extensions spatiales 
Ll et l et temporelles (T et T’) sont reliées par 7//T = U/l. On retrouve ainsi, par exemple, 
la dépendance en v£ de la période des oscillations d’un pendule simple de longueur L. 


e Enfin, pour le cas du mouvement de Kepler dans un potentiel gravitationnel central, on a k = —1. 
La relation (1.107) est donc satisfaite si 8 = a3/2. On en déduit alors, par exemple, la troisième 
loi de Kepler qui relie la période d’une orbite T à son demi grand axe a: 7 ?/a est une constante. 


Ces trois exemples illustrent bien la puissance de ces simples lois d'échelle. En fait, ce genre 
d’arguments se transpose à des domaines très variés et permet souvent d'obtenir des lois très générales 
par de simples considérations d'échelle ou de dimensionnalité. 


1.7.2 Théorème du Viriel 


Nous établirons ici, dans le cas des énergies potentielles homogènes, un lien utile entre les énergies 
potentielles et cinétiques moyennes (moyennées sur un temps long devant les temps caractéristiques du 
mouvement, la période par exemple). Ce théorème possède de nombreuses applications en mécanique 
céleste. 

L'énergie cinétique T est une forme quadratique des vitesses. On peut donc lui appliquer le 


théorème d’Euler: ƏT 
2T =X 5 ġi . (1.108) 
P Oi 
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L'énergie potentielle ne dépendant pas des vitesses généralisées, OT /Oq; = O0L/ÜG. En utilisant la 
définition des impulsions généralisées, on peut mettre cette dernière relation sous la forme: 


. d . 
2T = X pi = J XO pigi bix. (1.109) 
Prenons maintenant la valeur moyenne temporelle de T définie comme: 


== 1 [7 

T = lim = T dt. (1.110) 
T—00 F. 0 

Notons que, dans le cas des mouvements périodiques, on peut définir la moyenne temporelle comme 

l'intégrale sur une période. En incluant dans cette définition de la valeur moyenne l'expression précé- 

dente de T, on trouve: 


- 
= . 1 1 7 : 
2T = lim z [Eral = =) 2 piai ; (1.111) 


Si le mouvement est borné, le terme tout intégré reste fini quand 7 tend vers l'infini et ne contribue 
donc pas à la valeur moyenne (il est strictement nul si le mouvement est périodique et si les intégrales 
s'étendent sur exactement une période). On a donc: 


2T = -X ha, (1.112) 


ou encore, en utilisant les équations de Lagrange p; = OL/ðqi, 
= OL 
DT = NN qi. 1.113 


Si, comme dans le paragraphe précédent, T ne dépend que des 4, on a 0L/0q; = —ðU /ðqi. Si enfin 
U est une fonction homogène des coordonnées de degré k, on peut écrire: 


2 = kU. (1.114) 
Rappelons pour finir les hypothèses nécessaires à l'établissement de cette propriété: 


e Les forces dérivent d’une énergie potentielle et les équations de Lagrange s'appliquent sous la 
forme ordinaire. 


e L'énergie potentielle est une fonction des coordonnées homogène et de degré k. 
e L'énergie cinétique ne dépend que des vitesses généralisées. 
e Le mouvement est borné. 


Ces hypothèses contraignantes sont en fait assez souvent remplies. C’est par exemple le cas pour les 


mouvements périodiques dans un potentiel gravitationnel central, où la relation s’écrit, avec k = —1: 
— 1— 
T==3U (1.115) 


ou pour les mouvements dans un potentiel harmonique (nécessairement bornés) pour lesquels k = 2 
et 
DU (1.116) 
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Chapitre 2 


Formulation hamiltonienne 


Nous présenterons brièvement dans ce chapitre la formulation hamiltonienne de la mécanique. Bien 
qu’elle soit strictement équivalente à la formulation lagrangienne, elle s’avère souvent plus puissante 
et d’un usage plus commode. 

D'abord, d’un point de vue très utilitaire, la formulation hamiltonienne facilite la résolution, 
analytique ou numérique, des équations du mouvement. Les équations de Lagrange sont des équations 
différentielles du second ordre. Leur résolution analytique n’est pas toujours facile, si elle est possible. 
Très souvent (par exemple dès le problème à trois corps en mécanique céleste), on doit recourir à 
une intégration numérique. Il se trouve que les équations différentielles du second ordre ne se prêtent 
pas très bien à une telle intégration. Il se pose en particulier des problèmes sévères de stabilité 
numérique. En revanche, les équation différentielles du premier ordre s’intègrent très aisément et de 
façon numériquement stable. Comme nous le verrons, les équations de Hamilton sont du premier 
ordre. 

En fait, le formalisme hamiltonien consiste à traiter sur un même plan les positions et les impul- 
sions généralisées associées. Outre la transformation d’une équation de Lagrange du second ordre, 
portant sur la position seule, en deux équations de Hamilton du premier ordre reliant position et im- 
pulsion, cette approche ouvre la voie à des changements de variables (nous dirons des transformations 
canoniques) très puissants. Plutôt que de changer simplement de coordonnées généralisées, on peut 
en effet mélanger positions et impulsions dans un changement de variables. Il est même possible ainsi 
d'échanger le rôle des impulsions et des positions ou de prendre les conditions aux limites comme 
nouvelles variables. Cette immense liberté dans le choix de la description du problème est au centre 
de nombreuses méthodes de résolution des problèmes de mécanique. 

Un autre avantage décisif de la formulation hamiltonienne est qu’elle se prête à merveille à des 
méthodes de perturbations (développement de la solution en puissance des perturbations, supposées 
petites, par rapport à un problème dont la solution est connue). Ces méthodes sont d’une importance 
primordiale en mécanique céleste (prise en compte, par exemple, des perturbations au mouvement 
de Kepler dues aux autres planètes). Enfin, et surtout, c’est la formulation hamiltonienne de la 
mécanique classique qui se prête à la quantification (dite, elle aussi, canonique). Nous n’aborderons 
pas ce problème, mais un certain nombre des notions que nous introduirons dans ce chapitre par- 
faitement classique ont une contrepartie dans le formalisme quantique. Si, de manière évidente, la 
fonction de Hamilton est remplacée par l’opérateur hamiltonien, les crochets de Poisson, par exemple, 
correspondent aux commutateurs. 


2.1 Equations de Hamilton 


Nous partons de la formulation lagrangienne établie au chapitre précédent, dans sa forme la plus 
simple. Nous n’intégrerons donc pas les généralisations aux forces ne dérivant pas d’un potentiel 
(mises à part les forces électromagnétiques) ni les généralisations à des liaisons non holonomes. On 
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définit les impulsions généralisées à partir de la fonction de Lagrange des positions, de vitesses et du 
temps! par 


OL 
RE, 2.1 
et on peut écrire les équations de Lagrange sous la forme: 
OL 
NOT 2.2 


Ces écritures font apparaître L comme une fonction naturelle des q; et des d;, dont les dérivées partielles 
respectives sont les p; et les p;. La “différentielle totale” du lagrangien s'écrit alors: 


dL = > pidå; + >_pidg r (2.3) 


La technique des transformations de Legendre, largement illustrée en thermodynamique classique?, 
permet de passer de L à une fonction dont la différentielle s’exprime de façon naturelle en fonction 
des q; et des p;i. Posons en effet 


H=) pit -L. (2.4) 


Nous appellerons H la fonction de Hamilton. Notons que, pour les systèmes conservatifs, la définition 
de la fonction de Hamilton coïncide avec celle de l’énergie totale. En revanche, pour des systèmes où 
la fonction de Lagrange dépend explicitement du temps, la notion d'énergie mécanique totale perd 
tout son intérêt, alors que la fonction de Hamilton garde son sens et permet toujours d'écrire les 
équations du mouvement. C’est ce caractère plus général de la fonction de Hamilton qui justifie de ne 
pas la confondre avec l’énergie totale. La différentielle de la fonction de Hamilton s’écrit sans difficulté 
comme: 


dH = > didp; — >_pidg ; (2.5) 


H apparaît donc comme une fonction naturelle des p; et q; dont les dérivées partielles respectives 
sont les g; et les p;. Les 2n équations de Hamilton, équivalentes aux n équations de Lagrange, qui 
permettent la résolution du problème avec les conditions aux limites, s’écrivent donc: 


OH 
= ġ; 2.6 
Op; k N 
OH 
= ùi, 2.7 
qi # Que 
auxquelles on pourrait ajouter la relation 0H /0t = —ðL/ðt, qui ne présente d'intérêt que pour un 


lagrangien et donc un hamiltonien dépendant explicitement du temps. Les positions et les impulsions 
sont dites variables conjuguées. 

Comme attendu, nous avons donc remplacé les n équations différentielles du second ordre que nous 
donne le formalisme lagrangien, par un nombre double d'équations différentielles du premier ordre qui 
se prêtent plus facilement à une résolution analytique ou numérique. Les conditions initiales naturelles 
pour ces équations sont les positions et les impulsions initiales (alors que c’étaient les positions et les 
vitesses initiales pour les équations de Lagrange). Rappelons que les impulsions ne coïncident pas 
nécessairement avec les vitesses généralisées, en particulier en présence de champs électromagnétiques). 

INous supposerons très souvent dans ce chapitre que la fonction de Lagrange ne dépend pas explicitement du temps. 
L'énergie mécanique totale est alors une intégrale première du mouvement. 
2C’est en effet la transformation qui permet, par exemple, de passer de l'énergie interne U, dont la différentielle 


s'exprime simplement en fonction de celles du volume et de l’entropie, à l’enthalpie H, faisant intervenir pression et 
entropie. 
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Notons enfin la symétrie remarquable de ces équations, qui traitent de façon tout à fait analogue les 
positions et les impulsions (à un signe près). 

Notons aussi que si q; est une coordonnée cyclique, la fonction de Lagrange et donc la fonction 
de Hamilton ne dépendent pas explicitement de q;. On déduit alors immédiatement des équations de 
Hamilton que p; est une constante du mouvement. 

Examinons maintenant le cas particulier où les forces dérivent d’une énergie potentielle ne dépen- 
dant que des positions et où les coordonnées généralisées coïncident avec les coordonnées cartésiennes. 
La fonction de Lagrange s’écrit L = T — U et les impulsions généralisées coïncident avec la définition 
habituelle pa = MaVa. La fonction de Hamilton, qui est identique à l’énergie totale, s’écrit alors 
H =T +U et les équations de Hamilton s’écrivent: 

Vp H = Va (2.8) 


(07 


Vae H = ba. (2.9 


7 


En écrivant H = $, p?/2ma + U, on en déduit: 


Pa/Ma = Va (2.10) 
Eg = Poz (2.11) 


La première de ces deux équations de Hamilton n’est autre que la définition de l'impulsion en termes 
de la vitesse. La deuxième n’est autre que le principe fondamental de la dynamique, où on a remplacé 
l’accélération par la dérivée par rapport au temps de l’impulsion. Dans ce cas très simple, l'écriture 
des équations de Hamilton à partir des équations de Newton revient à prendre comme variables 
indépendantes position et vitesse, un changement de variable bien connu pour transformer les équations 
différentielles du second ordre en équations du premier ordre. 

Examinons maintenant un autre cas très important: celui de particules chargées dans un champ 
électromagnétique. Nous supposerons encore que les coordonnées sont les coordonnées cartésiennes 
habituelles. Nous avons montré au chapitre précédent que la fonction de Lagrange s'écrit: 


L =X (Tæ — GaVa + GaAa: Va) ; (2.12) 


où Va et Aa sont les potentiels scalaires et vecteur vus par la particule œ. 
Pour passer aux équations de Hamilton, la première étape est de déterminer l’impulsion généralisée 
Pa: 
Pa = Vvo L = MaVa + qaAa : (2.13) 
On voit bien que, sauf dans le cas de l’électrostatique, impulsion généralisée ne coïncide pas avec la 
quantité de mouvement ordinaire. 
On peut alors écrire sans difficultés la fonction de Hamilton: 


1 
H=S Pa Ya- L=). (me? + ave) i (2.14) 
Q Q 


De façon très remarquable, la fonction de Hamilton écrite sous cette forme ne fait pas intervenir le 
potentiel vecteur magnétique. En effet, au moins dans le cas où les potentiels sont statiques, nous avons 
vu au chapitre précédent que lénergie totale conservée des particules est la somme de leur énergie 
cinétique et de l'énergie potentielle électrostatique. On pourrait craindre qu’une telle fonction de 
Hamilton ne conduise à des équations du mouvement qui ne font plus intervenir le champ magnétique. 
Bien sûr il n’en est rien. On doit en effet, pour écrire les équations de Hamilton, exprimer H comme 
une fonction des impulsions généralisées, non pas des vitesses. En utilisant le lien entre impulsion et 
vitesse, on obtient: 


(Pa Ap qa Aa)? 
H=% Ts FU: (2.15) 
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Cette expression du hamiltonien de particules dans un champ nous sera utile dans la quatrième partie. 
Nous aurons en effet besoin du hamiltonien quantique d’un atome dans un champ de rayonnement. 
Nous utiliserons simplement l’expression précédente, en remplaçant toutes les quantités relatives à la 
particule par les opérateurs quantiques correspondants. 

A titre d’exercice, écrivons les équations du mouvement à partir de cette expression du hamiltonien, 
et vérifions que nous retrouvons bien la force de Lorentz habituelle. Pour alléger les notations, nous ne 
considérerons que le cas d’une particule unique et nous omettrons donc l’indice a. Le lecteur pourra 
aisément rétablir le cas général. 

Notons d’abord qu’une des équations de Hamilton redonne trivialement, comme dans le cas d’un 
potentiel standard, la définition de l’impulsion généralisée en termes de la vitesse. Nous nous focalis- 
erons donc sur l’autre équation, qui s’écrit: 


(p - qA} 


p=-VH=-qVv -V 
2m 


i (2.16) 


où les gradients s'entendent par rapport à la position r de la particule. Le gradient du carré scalaire 
peut se développer comme gradient d’un produit scalaire: 


V(p—gA) =2{[(p - 4A) - V] (p - 4A) + (p - 4A) x [V x (p — 4A)]} . (2.17) 


Dans cette équation, seul le potentiel vecteur est à considérer comme une fonction de r. On peut 
alors simplifier cette expression et la dérivée de l'impulsion s’écrit, en faisant intervenir la vitesse de 
la particule: 


p=-VH=-qVv +q(v.V)A+qvxB. (2.18) 

En nous souvenant que: 
vr=-E "2 (2.19) 

E ot | 
et que 
dA ôA 
VA ep 2.9 

CONS à Ca 


(dérivée hydrodynamique), on a 


dA 
PREEN SE 


Si enfin on exprime la variation de l'impulsion en fonction de l'accélération, on retrouve bien le principe 
fondamental avec la force de Lorentz sous sa forme standard. Si nous ne doutions guère du résultat, 
il était important de l’établir explicitement. Il nous a fait bien sentir la différence essentielle entre 


(2.21) 


quantité de mouvement (au sens de la dynamique newtonienne) et impulsion généralisée. 


2.2 Crochets de Poisson 


Nous allons introduire dans ce paragraphe une notation que nous n’utiliserons guère dans ce cours, 
très élémentaire, de mécanique analytique. En revanche, lanalogie et le lien formel très important 
entre ces crochets de Poisson et les commutateurs de la mécanique quantique rendent importante leur 
introduction à ce point. Nous préciserons d’ailleurs rapidement ces liens. 

Considérons une fonction f quelconque des impulsions, des positions et du temps. On peut en 
écrire la dérivée totale par rapport au temps, le long de la trajectoire suivie par le système, sous la 


forme: P 5 
no nDo (2.22) 
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En utilisant les équations de Hamilton, nous mettrons cette dérivée sous la forme: 


df _ of 
THEN, (2.23) 
où {H, f} est le crochet de Poisson de f avec H, défini par: 
OH ðf OH Of 
H, f} = ha ; 
Ced > Opi ðqi qi Op; (Pa 


Le crochet de Poisson est une forme bilinéaire antisymétrique de ses arguments. C’est aussi le 
cas des commutateurs entre opérateurs en mécanique quantique. Au delà d’une simple remarque 
mathématique et d’une évidente analogie de notations, nous allons, tout au long de ce paragraphe, 
rencontrer de nombreuses similitudes entre crochets de Poisson et commutateurs. En fait les uns sont 
la version classique des autres. 

Notons également que les crochets de Poisson peuvent être utilisés pour décrire l’évolution tem- 
porelle d’une densité de probabilité dans l’espace des phases. En effet, si W (pi, qi) représente la 
probabilité pour que les coordonnées généralisées et leurs impulsions conjuguées prennent les valeurs 
pi, di, W évolue dans le temps selon l’équation: 


= {HW}. (2.25) 


Cette équation est en fait le premier terme d’un développement en puissances de À de l’évolution 
d’une fonction de distribution de quasi-probabilité dans l’espace des phase, très utilisée en mécanique 
quantique: la distribution de Wigner (développement de Moyal). Au premier ordre en À, comme on 
pouvait s’y attendre, l’évolution quantique de la densité de probabilité dans l’espace des phases est la 
même que l’équation d'évolution classique. 

Supposons que la fonction f ne fasse pas intervenir explicitement le temps. La condition nécessaire 
et suffisante pour que f soit une intégrale première du mouvement est alors que { A, f} — 0. La nullité 
du crochet de Poisson avec la fonction de Hamilton est équivalente avec la constance de la fonction. 
Cette propriété est à rapprocher de son équivalent quantique. La condition pour qu’un opérateur 
F soit une constante du mouvement est en effet que son commutateur |H, F] avec le hamiltonien 
s’annule. 

On peut bien sûr définir le crochet de Poisson de deux fonctions quelconques des positions des 
impulsions et du temps, estimées sur la trajectoire du système: 


Of ðg of Üg 


{f,9} = 2 5 De Dan (2.26) 
On déduit de cette expression les propriétés essentielles de l’algèbre des crochets de Poisson: 
{fC} = 0 (2.28) 
{f+fhg} = {f,a}+{f,9} (2.29) 
{Cfg} = Cf} (2.30) 
ti 

{fai} = J (2.31) 

z 


où C est une constante arbitraire. On en déduit facilement les crochets de Poisson des impulsions et 
positions: 


{dig} = 0 (2.33) 
{Pi pk} = 0 (2.34) 
{pidak} = x (2.35) 
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Il est intéressant de noter la similitude entre ces “relations de commutation” classiques et leur analogue 
quantique ([X;, Pk] = iħðik). De façon très générale, nous verrons que les crochets de Poisson des 
quantités classiques coïncident, à un facteur —iħ près, avec les commutateurs quantiques. 

Notons une dernière propriété utile des crochets de Poisson, la relation de Jacobi: 


{f, {9, k}} + {9,{k, FH + {k, {f,9}} = 0 (2.36) 


(nullité de la somme de tous les crochets de Poisson obtenus par permutation circulaire des trois 
fonctions). 

Comme nous l’avons déjà mentionné, les crochets de Poisson sont utiles pour la recherche des 
intégrales premières du mouvement. Précisons encore ce point en montrant que si f et g sont deux 
intégrales premières du mouvement, leur crochet de Poisson est aussi une intégrale première. En 
d’autres termes, nous allons montrer que, si df/dt = 0 et dg/dt = 0, alors d{f,g} /dt = 0. Nous 
avons: 


D {F9} + LH, {5,9} 


(IL o) {st {UE 


+R) + TA ERT 


d 


(2.37) 


Si donc on connaît deux intégrales premières du mouvement, on peut en trouver en principe une 
troisième en prenant leur crochet de Poisson. Rien ne garantit néanmoins que cette troisième intégrale 
ne soit triviale (nulle en particulier) ou déjà connue. Notons là encore qu’il existe un analogue quan- 
tique évident à cette propriété: si deux opérateurs commutent avec le hamiltonien (et sont donc des 
constantes du mouvement), alors leur commutateur commute lui aussi avec le hamiltonien et donne 
une troisième constante du mouvement. 

Pour clore ce paragraphe, considérons brièvement le cas des trois composantes Lg, Ly et L; du 
moment cinétique total L. Nous nous placerons, pour fixer les idées, dans le cas d’une particule unique, 
et nous laisserons les généralisations au lecteur. Nous avons montré au chapitre précédent que L = r x 
p. On en déduit Ly = yp.—z2p, (et les deux autres composantes par permutation circulaire des indices). 
Le crochet de Poisson {L, Ly} fait intervenir les dérivées partielles des composantes concernées du 
moment cinétique par rapport aux composantes de la position et de l’impulsion. L'expression des 
composantes du moment cinétique permet de calculer facilement ces dérivées. Après un calcul sans 
grand intérêt, on obtient: 

Le Ly} = -L (2.38) 


et les trois relations se déduisant de celle ci par permutation circulaire des indices. Notons, une fois 
de plus, l'analogie entre ces équations et leur contrepartie quantique: 


[Lz, Ly] = iħLz , (2.39) 


relations d’un très grande importance puisqu'elles définissent ce qu’est un moment cinétique quantique. 

Nous avons vu au chapitre précédent que l’invariance par rotation arbitraire autour d’un axe 
impliquait la conservation de la composante du moment cinétique sur cet axe. Imaginons qu’on ait pu 
montrer la conservation de Lg et Ly. Il en résulte, comme nous venons de le montrer, la conservation 
de leur crochet de Poisson, c’est à dire de Lz. Il suffit en fait que le moment par rapport à deux axes 
perpendiculaires soit conservé pour que le moment cinétique total le soit. 
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Nous pouvons aussi appliquer ces relations à l’étude d’un problème dynamique important. Nous 
considérerons un système dynamique dont le hamiltonien peut s’écrire H = Q- L, où Q est un vecteur 
constant. C’est par exemple le hamiltonien d’une particule dont le moment cinétique est proportionnel 
au dipôle magnétique, quand elle est plongée dans un champ magnétique uniforme (problème de la 
“précession de Larmor”, dont la version quantique est d’une grande importance dans la compréhension 
de l'effet Zeeman). Les seules variables dynamiques importantes sont les composantes du moment 
cinétique. On peut écrire: 


dL 
a {H,L} =Q. L, L} (2.40) 
En utilisant les relations de crochets de poisson entre les composantes de L, on a, par exemple, 
dL 
a = QyLz — Qz Ly (2.41) 
soit encore JL 
—-NxL. 2.42 
F x (2.42) 


On retrouve aisément que le moment cinétique précesse autour du vecteur fixe Q avec une pulsation 
Q. 


2.3 Action et hamiltonien 


Nous allons revenir sur le principe variationnel. Nous allons écrire l’action en fonction du hamiltonien, 
et montrer qu’on peut retrouver les équations de Hamilton en écrivant la stationnarité de cette ex- 
pression de l’action par rapport à certaines variations infinitésimales de la trajectoire. Ce paragraphe 
ne nous apprendra rien que nous ne sachions déjà, mais il est nécessaire à la cohérence de tout notre 
édifice. 

Le lien entre fonction de Lagrange et fonction de Hamilton nous permet d'écrire l’action sous la 


forme: 
t2 
sal (Cri -#) dt , (2.43) 
ti s 


avec les notations du premier chapitre. 

Ecrivons maintenant, pour retrouver les équations de Hamilton, que l’action est stationnaire pour 
la trajectoire effectivement suivie. L’accroissement ôS de l’action dans un accroissement infinitésimal 
de la trajectoire doit donc s’annuler. Nous considérerons donc deux trajectoires. La trajectoire 
de référence est la trajectoire effectivement suivie, définie par œ(t) et pi(t) (les variables naturelles 
dans une approche hamiltonienne sont les positions et les impulsions). L'autre trajectoire (infiniment 
proche) est définie à chaque instant par qi(t) + ôqi(t) et pi(t) + ôpi(t). Nous imposerons aux deux 
trajectoires de coïncider à l'instant initial et à l'instant final: ôq;(1) = ôq(2) = 0. Il est naturel 
de considérer, dans une approche hamiltonienne, les p; et les q; comme des variables indépendantes. 
Nous n’imposerons donc aucune condition aux Ôp;, ni aux extrémités de la trajectoire, ni à aucun 
instant. Il faut bien voir que nous pouvons ainsi considérer des trajectoires variées qui n’auraient pas 
de sens du point de vue de la simple cinématique: si les impulsions coïncident avec les quantités de 
mouvement (mv), varier les vitesses indépendamment des positions implique que, sur la trajectoire 
variée, les vitesses puissent ne plus être égales aux dérivées des positions (avec une différence au 
premier ordre dans les petits accroissements). Ce n’est qu’au prix de cette liberté toute mathématique 
que nous pourrons retrouver l'équation de Hamilton qui contient en fait la définition des impulsions 
généralisées (de la vitesse dans le cas très simple que nous venons de mentionner). 

Avec ces notations, l’accroissement de l’action s’écrit simplement: 


t2 
ôS = (Eora + p;ôdi) — su dt . (2.44) 
ti 


i 
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L’accroissement de H entre la trajectoire de référence et la trajectoire variée s’écrit simplement: 


OH OH 
H =D  =—ôqi + —0pi - 
ô 2 da qi + D. ôp (2.45) 
On peut donc mettre ôS sous la forme: 
t2 dqi OH t2 OH 
Si p= iðdi — = —ôqi . 2.4 
oS i 2 òp | dt Fn Fee i 2 p g ðqi da: # l o 


Considérons plus particulièrement le premier terme de la deuxième intégrale. On peut l'intégrer par 
parties pour faire apparaître ôq; au lieu de 04. Le terme tout intégré dans cette intégration par 
parties fait intervenir les accroissements ôq; aux instants tı et t2. Il est donc identiquement nul. En 
regroupant alors les termes proportionnels aux accroissements des positions et des impulsions, on peut 


écrire: 2 r 
qi Pi 
Poe mn e 


Op 


=] ôqi dt . (2.47) 


ôS ne s’annulera quels que soient les accroissements des positions et impulsions que si les termes 
entre crochets dans chaque intégrale s’annulent identiquement sur la trajectoire effectivement suivie. 
On montre bien ainsi que cette trajectoire obéit effectivement aux équations de Hamilton, que nous 
aurions parfaitement pu établir par ce raisonnement. 

Il existe, dans le cadre de le formulation hamiltonienne, un autre principe variationnel, le principe 
de Maupertuis, qui permet de trouver la forme de la trajectoire, mais pas la loi horaire. Ce principe 
s'apparente de très près à celui de Fermat, qui permet de déterminer en optique la trajectoire des 
rayons lumineux. Nous n’aborderons pas ici le principe de Maupertuis, largement discuté dans les 
manuels. 


2.4 Transformations canoniques 


Nous abordons ici ce qui constitue sans doute l’intérêt essentiel de la formulation hamiltonienne. 
La complète symétrie entre les positions et impulsions va en effet nous permettre d’envisager des 
changements de variables mêlant ces deux types de quantités. Nous verrons qu’on peut ainsi rendre 
complètement triviale la dynamique d’un problème, en prenant par exemple comme nouvelles vari- 
ables les conditions initiales. Bien sûr, la difficulté est de trouver le bon changement de variables. 
Nous n’aborderons pas, faute de place, les méthodes permettant de les déterminer. Nous profiterons 
également de ce paragraphe pour établir le théorème de Liouville, qui joue un rôle central en physique 
statistique et dans l’étude de la dynamique des systèmes complexes. 


2.4.1 Principe 


Revenons un instant au formalisme lagrangien. Les q; et leurs vitesses g; ne sont pas des variables 
indépendantes. Le seul type de changement de variable que l’on puisse envisager est donc de définir 
de nouvelles coordonnées généralisées Q;, calculables à partir des q; et du temps (la relation étant 
inversible). On peut alors écrire la fonction de Lagrange en fonction des Q;, les équations de Lagrange 
correspondantes et résoudre ainsi le problème — en espérant qu’il soit plus simple en terme des nouvelles 
variables. Nous appellerons une telle transformation des coordonnées généralisées une “transformation 
ponctuelle”. Nous allons maintenant voir qu’elle appartient à un cadre beaucoup plus général. 

Dans le formalisme hamiltonien, les variables indépendantes sont les q; et les p;. Nous pouvons 
imaginer un changement de variables très général sous la forme qi —> Qi(qi,pi,t) et pi — P(qi, pi, t). 


3On consultera en particulier le Goldstein. 
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Les définitions des nouvelles positions et des nouvelles impulsions font intervenir toutes les anciennes 
positions et impulsions. Ce changement de variables nous laisse donc toute liberté. Nous exigerons 
cependant qu’il soit inversible, pour que l’état du système soit déterminé de façon univoque par les 
nouvelles coordonnées, ce qui impose que les Q; et les P; soient indépendantes. 

Pour que ce changement de variable soit utilisable dans un problème de mécanique, il nous faut 
cependant lui imposer une contrainte supplémentaire. Il faut en effet qu’il existe un nouveau hamil- 
tonien H'(Q;,P;,t) qui donne les équations de Hamilton pour les nouvelles variables. Nous dirons 
alors que la transformation est “canonique”. 

Supposons que H’ existe bien. Le principe variationnel abordé au paragraphe précédent s'écrit: 


af” (Era-n) dt = 0 (2.48) 


en terme des anciennes variables et 
t2 ; 
ô XO PQi-H' | dt=0 (2.49) 
ti P 


en termes des nouvelles. Pour que ces deux principes variationnels donnent les mêmes équations du 
mouvement, il suffit que les deux quantités intégrées ne diffèrent que de la dérivée totale par rapport 
au temps d’une fonction F. En effet, cette différence ne contribue aux intégrales que par un terme de 
la forme F(2) — F(1), qui ne varie pas quand on varie la trajectoire. On peut mettre cette condition 
sous la forme: 


X pidqi — Hdt = 5 P;dQi — H'dt + dF ; (2.50) 


dF étant l’accroissement de F entre deux instants voisins. Il suffit donc, pour que la transformation 
soit canonique, qu'il existe une fonction F telle que: 


dF = Y` pidgi — X P;dQi + (H' — H)dt (2.51) 

ou encore: IF JF AS 
D. am Welt 2:52 
ðq ?” 0Q; t (252 


Si effectivement la donnée d’une fonction F (qi, Qi, t) permet, en écrivant les relations aux dérivées 
partielles précédentes, de déterminer complètement la transformation, celle-ci sera une transformation 
canonique et le nouveau hamiltonien sera connu. 

Pour montrer que la donnée de F détermine complètement la transformation, considérons les n 
équations F (qi, Qi, t)/ðqi = pi. On peut, au moins formellement et sauf cas pathologique, les résoudre 
en termes des n “inconnues” Q; et trouver ainsi les n fonctions Q;(qi, pi, t). On peut alors calculer 
facilement, en fonction des q;, Q; et de t les n dérivées partielles —-0F/0Q; qui donnent les nouvelles 
impulsions P;(qi, Qi,t). En reportant les expressions des Q;, on trouve alors les P;(qi, pi, t), ce qui 
achève de déterminer complètement la transformation. Le nouveau hamiltonien H’ peut alors être 
calculé et on peut écrire les équations de Hamilton en termes des nouvelles variables. 

En résumé, la donnée d’une fonction F(qi, Qi, t) détermine en général de façon univoque une 
transformation généralisée et assure que cette transformation soit canonique. Enfin, la donnée de F 
permet d'exprimer le nouveau hamiltonien. Pour toutes ces raisons F s’appelle la fonction génératrice 
de la transformationź. 


#Nous avons montré qu’à toute fonction génératrice correspond une transformation (sauf cas pathologique, certaines 
fonctions ne définissant pas une transformation univoque — en particulier les constantes). Nous n’avons pas établi la 
réciproque, que nous admettrons. 
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Nous avons choisi ici, de façon naturelle, de définir F par les variables q; et Qi. On peut imaginer 
de définir une transformation canonique par un autre couple de variables. F étant donnée, considérons 
en effet la fonction ® définie par: 

&=F+S PQI, (2.53) 
{A 


et résultant donc d’une transformation de Legendre sur la fonction F. est donc a priori une fonction 
naturelle des q;, P;. On peut s’en convaincre en écrivant sa différentielle: 


dọ = Y pidgi + X` QidP; + (H' — H)dt . (2.54) 
Les dérivées partielles de © sont donc: 
ðp 0 a nn 06 
Où JP, 7 H=H+5 (2.55) 


Comme dans le cas précédent, on peut montrer aisément que la donnée de @ et les relations aux 
dérivées partielles ci-dessus déterminent complètement la transformation canonique. Pour cela, on 
résout les n équations 0d/0q; = p; en termes des P;(qi, pi, t). En reportant ces expressions dans les n 
autres relations, on achève de déterminer la transformation en obtenant les Q;. 

Nous laissons au lecteur le soin de montrer qu’il existe encore deux expressions possibles pour une 
transformation canonique. D’une fait intervenir Y (p;, Qi, t) = F — Ÿ); qipi et les relations: 


ƏY ðv ðY 
= —G; = —P; H=H+—. 2.56 
L'autre utilise la fonction E(p:;, P;,t) = 9 — 3:;,Q;P,; et les relations: 
0= = 0= 
se = Q0; H'=H+—. 2.57 


La donnée au choix de l’une de ces quatre fonctions détermine donc complètement une transformation 
canonique. Si la fonction génératrice ne fait pas intervenir explicitement le temps, les fonctions de 
Hamilton coïncident dans les anciennes et les nouvelles représentations (il existe en fait un lien très 
profond entre les transformations canoniques et les changements de représentation ou les transforma- 
tions unitaires en mécanique quantique). Le choix immense des fonctions génératrices possibles donne 
une idée de la puissance de la méthode. 


2.4.2 Transformations canoniques et crochets de Poisson 


En fait la propriété essentielle des transformations canoniques est qu’elles conservent les crochets de 
Poisson: 


Poe = {f 9}po , (2.58) 
où 
__ = f (pi qit) 0g Of 0g 
{f, Iip = 2 ~ Om Ôq = ðq; Op; , (2.59) 
et 
_ {< fP Qi, t) 0g Of Əg 
{f,9}po = D JR 20 90.0: (2.60) 


(A 
On peut bien sûr démontrer cette relation en utilisant la fonction génératrice de la transformation. Il 
existe cependant une démonstration beaucoup plus intuitive. Limitons nous pour cela au cas où f et g 
ne dépendent pas explicitement du temps et au cas où la fonction génératrice de la transformation ne 
dépend pas non plus du temps. Il doit exister un problème de mécanique décrit par les qi, pi dont la 
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fonction g(pi, qi) serait le hamiltonien. Le crochet de Poisson {f, I}pq apparaît alors comme la dérivée 
temporelle de la fonction f le long d’un trajectoire solution de ce problème fictif. La fonction g(P;, Qi) 
est le hamiltonien H’ du même problème dans les coordonnées transformées. Le crochet de Poisson 
{f,g} PQ St la dérivée temporelle de f dans cette représentation. Mais df /dt doit être indépendante 
de la représentation, ce qui implique légalité des crochets de Poisson. Cette relation, établie ici dans 
un cas un peu particulier, est en fait générale. Elle permet, par exemple, de calculer facilement les 
crochets de poisson des nouvelles variables dans la représentation des anciennes, ce que nous laisserons 
au lecteur à titre d’exercice. 


2.4.3 Exemples de transformations canoniques 


Nous donnons ici, à titre d'illustration, quelques fonctions génératrices définissant des transformations 
canoniques particulièrement simples. Nous montrerons aussi comment les transformations canoniques 
permettent de rendre triviale la solution d’un problème de mécanique. 


o (qi, Pi, t) = D; qiP;. Le temps n’intervenant pas dans la fonction génératrice, nous avons bien 
sûr H' = H. En appliquant les relations aux dérivées partielles, nous trouvons sans difficultés 
pi = P; et Qi = qi. Cette fonction génératrice définit donc la transformation unité, ce qui ne 
présente guère d'interêt. 


(qi, Pi t) = X; dilqj, t) Pi. Là encore, on trouve sans difficultés Q; = @:(q;,t). Cette fonction 
génère donc l’ensemble des transformations ponctuelles, éventuellement dépendantes du temps, 
qui définissent les nouvelles cordonnées en fonction seulement des anciennes. L'avantage de 
l’approche en termes de transformations canoniques est que l'application des autres relations 
aux dérivées partielles nous donne p; = D },(09x/0q)P;, système qui permet de déterminer 
les nouvelles impulsions en fonction des anciennes et des coordonnées. Notons que, si les ; 
dépendent du temps, les deux hamiltoniens H et H’ peuvent différer. 


e F = 5 ;(qiQi). On trouve alors immédiatement p; = Q; et P; = —-q. A un signe près, cette 
fonction réalise l’échange des coordonnées et des impulsions, illustrant le rôle très symétrique 
que jouent ces notions dans l’approche hamiltonienne. 


Nous allons montrer maintenant comment une transformation canonique bien choisie permet de 
rendre complètement triviale la dynamique d’un système. DL’idée est de rendre le nouveau hamiltonien 
cyclique dans les nouvelles coordonnées. Les nouvelles impulsions sont alors constantes et la dynamique 
des nouvelles coordonnées se résume à une évolution linéaire dans le temps. La difficulté dans ce 
genre d'approche, à la base de nombreuses méthodes de résolution de problèmes de mécanique, est 
bien sûr d’exhiber la transformation canonique convenable, ce qui n’est pas toujours possible. Nous 
considérerons dans ce paragraphe le problème trivial d’un oscillateur harmonique à une dimension. 

Le hamiltonien H s'exprime simplement en fonction de la coordonnée q et de l'impulsion conjuguée 


p par: 
H = +e, (2.61) 


somme des énergies cinétiques et potentielles. On considère alors la transformation canonique générée 
par la fonction 


F(4,Q,t) = Zmwg? cot Q (2.62) 


(le choix d’une telle transformation n’est guère possible si on ne connaît déjà la solution du problème). 
Cette fonction ne dépendant pas explicitement du temps, le nouveau et l’ancien hamiltonien coïncident. 
À partir de cette fonction génératrice, on trouve 

oF 


— = mwq cot Q (2.63) 
ðq 
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et 
OP... mwg? 


eE A E 
0Q 2sin? Q 


(2.64) 


On peut extraire de ces deux relations: 


2P 
1=\ zg. p = V2mwP cos Q . (2.65) 


Le nouveau hamiltonien peut alors être exprimé, comme il se doit, en termes des nouvelles variables: 


pP ma? 


H' = — + — e = uP. 2.66 
m 2 1 (won 

Comme nous l’espérions, ce nouveau hamiltonien est cyclique dans la nouvelle coordonnée Q. L’im- 
pulsion conjuguée, P, est donc une constante. Comme l'énergie mécanique totale est conservée dans 
ce problème et coïncide avec la fonction de Hamilton, cette constante vaut simplement: 

E 

P=—. 2.67 

- (2.67) 
Elle est donc homogène à une action (produit d’une énergie par un temps). P s’appelle donc variable 
d’action. On montre que, dans tout problème unidimensionnel, on peut trouver une variable d’action 
conservée dans l’évolution. L’équation de Hamilton pour Q, Q = 0 H'/ðP = w, donne simplement: 


Q=uwt+6. (2.68) 


Q, évoluant linéairement avec le temps, se nomme variable d'angle. Là encore, dans tout problème 
unidimensionnel, il existe une variable d’angle conjuguée de la variable d’action. La solution explicite 
du problème est donc donnée en fonction de deux constantes arbitraires, comme il se doit, l’énergie 
mécanique totale € et la phase @, valeur initiale de la nouvelle coordonnée. En utilisant alors la 
transformation, on peut exprimer la solution en termes des variables initiales, et on trouve: 


q=4/ = sin(wt + ¢), (2.69) 


ce qui n’est pas vraiment un résultat inattendu! 

L’apparente simplicité de cette approche, dans ce cas trivial, ne doit pas faire oublier que la grande 
difficulté est d’exhiber la fonction génératrice adaptée. Nous ne pourrons aborder ici les méthodes 
variées de résolution fondées sur les transformations canoniques. Le lecteur pourra en trouver une 
description détaillée dans le Goldstein. 


2.4.4 Transformations canoniques et espace des phases 


L'état mécanique du système est complètement décrit par la donnée des n q; et des n p;. Autrement 
dit, le système est décrit comme un point dans un espace à 2n dimensions que l’on appelle espace des 
phases. Cet espace joue un très grand rôle en physique statistique. L’entropie, par exemple, peut être 
définie comme le logarithme du nombre de configurations accessibles au système. Compter ce nombre 
de configurations, c’est compter la surface de l’espace des phases correspondant à un petit intervalle 
d’énergie. L’espace des phases joue également un rôle très important dans l’étude de la dynamique 
complexe des système (chaos classique, par exemple). Un point d’équilibre stable correspond à un point 
dans l’espace des phases, un mouvement périodique à une trajectoire fermée simple, un mouvement 
chaotique à une trajectoire complexe parcourant rapidement tout le domaine accessible. 

Les transformations canoniques transforment un espace des phases en un autre. La géométrie 
de cette transformation n’est pas complètement arbitraire, en raison des contraintes imposées aux 
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transformations canoniques. La propriété essentielle est qu’une transformation canonique conserve le 
volume dans l’espace des phases. Si on considère un domaine V de l’espace des phases des “anciennes 
coordonnées”, il lui correspond un domaine V’ dans le nouvel espace. Pour des raisons évidentes de 
continuité et dérivabilité des transformations canoniques, V’ est un fermé connexe si V l’est. On peut 
calculer le volume V du domaine V comme: 


y s dqı + dgndpi : -` dpn , (2.70) 
V 


et calculer de même le volume V’ du domaine V”. 

Pour une transformation canonique, V = V'. 

Pour les mathématiciens cette propriété découle de façon immédiate de la structure symplectique 
de la transformation canonique. Nous allons établir cette propriété de façon moins directe, mais peut 
être plus accessible. Rappelons d’abord que: 


| dQ1 ++: dQndPi dla = f |J| da -: - dqndpı -dpn , (2.71) 
Vv’ V 


où J est le Jacobien du changement de variable, déterminant formé avec toutes les dérivées partielles 
des nouvelles variables par rapport aux anciennes: 


ðqı qı 
e a e (2.72) 
i ayp Pr 
OPn OPn 
que nous noterons également 
Or: Ph) 
J = = ——< 2.73 
O(q1;-..;,Pn) 


Ces notations deviennent tout à fait triviales en dimension 1 et coïncident alors avec les changements 
de variables standard dans les intégrales. Si nous prouvons que le Jacobien de toute transformation 
canonique est 1, nous aurons établi la proposition cherchée. 

Pour cela, nous aurons besoin de deux propriétés des Jacobiens. D'abord: 


Os , Qn, Pi,- , Pa) 
(Qi: Pn) alq,- --dn, Pis- Pa) 
O a a e —————— . 2.74 
alq,- --, Pn) Olqi,---; dn, P1,- --, Pn) ( ) 


alq, sy Ani Pi, PP sp) 
En fait, comme les dérivées partielles ordinaires, les produits et rapports de Jacobiens peuvent se 
simplifier comme des fractions’. De plus: 


IQ- Qn Pis. Pn) _ O(Q1--.,Qn) (2.75) 


alqi,- n, Pis- Pn) alqi. --,qn) 
On peut donc retirer d’un Jacobien les variables qui apparaissent au “numérateur” et au “dénomina- 
teur”. Le changement de variables considéré laisse en effet invariantes ces quantités. 
En utilisant successivement ces deux propriétés, on met le Jacobien de la transformation canonique 
sous la forme: 


o(Qi, Qn) 
= Ô(q1,...,Qn) 
Ole Pa) 


5Nous supposons bien sûr que tous les Jacobiens écrits dans ces équations ont un sens, et en particulier que toutes 
les transformations “tronquées” sont inversibles, ce qui n’est pas vrai en toute généralité. 
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La transformation étant canonique, elle est engendrée par une fonction ®(%, P;) telle que 0®/0qi = pi 
et 0®/0P,; = Q;. On a donc immédiatement: 


0Q: PS 

où = 0a0P, (2.77) 
et 5 o 

Pi 

IP, = PR (2.78) 


Les dérivées secondes croisées étant égales, toutes les dérivées partielles apparaissant dans le dévelop- 
pement du déterminant au numérateur de (2.76) sont égales, terme à terme, à celles apparaissant dans 
le développement du dénominateur. Cela établit que le Jacobien d’une transformation canonique est 
de module égal à un et l’invariance du volume dans l’espace des phases. 


2.4.5 Transformation générée par l’action et théorème de Liouville 


Nous considérerons dans ce paragraphe une transformation canonique très particulière qui fait se 
correspondre deux états du système à deux instants différents. Considérons en effet un système ayant 
un lagrangien indépendant du temps (l'énergie totale est donc conservée) dont la dynamique est décrite 
par les p;(t) et les q;(t) et considérons le changement de variables défini par: 


pitt) — Pt) =m(t+T) (2.79) 
quit) — Qit)=qœ(t+T), (2.80) 


où T est une durée fixe. Cette correspondance entre états du système à des instants différents 
est évidemment une transformation canonique, puisque les nouvelles variables obéissent aux mêmes 
équations du mouvement que les anciennes. Nous allons voir que la fonction génératrice de cette trans- 
formation n’est autre que l’action. Considérons en effet la trajectoire du système entre les instants t et 
t+T et une trajectoire infiniment voisine obtenue en modifiant les coordonnées aux points de départ 
et d'arrivée de quantités infinitésimales. Avec les résultats du chapitre précédent, nous pouvons écrire 
la variation de l’action entre ces deux trajectoires comme: 


dS = > pilt +T)dai(t +T) — > pi(t)da:(t) (2.81) 


ou encore 


dS = 5 P;(t)dQ:(t) SE X pi(t)dqi(t) 7 (2.82) 
i i 
Cette expression de la différentielle de l’action, que nous pouvons considérer comme une fonction des 


coordonnées des points de départ et d’arrivée: S(qi, Qi), prouve que: 


OS OS 
Qi i DT S 


(2.83) 


S est donc bien fonction génératrice de la transformation des q; en Q;. Cette transformation joue 
un rôle central dans la méthode de Hamilton-Jacobi, essentielle pour la résolution de problèmes 
complexes, et conduisant à la notion importante de séparabilité des variables. Nous ne disposons pas 
d’un espace suffisant pour traiter convenablement cette méthode. Nous donnerons donc une seule 
application de la transformation engendrée par l’action. 

Considérons un domaine V de l’espace des phases du système. On peut considérer l’ensemble des 
trajectoire originaires d’un point situé à l’instant t à l’intérieur de ce domaine. Par continuité, ces 
trajectoires correspondent à l’instant t+ T à des points situés dans un nouveau domaine V’ de l’espace 
des phases. Comme la transformation faisant se correspondre les instants t et t + T est canonique, 


2.4. TRANSFORMATIONS CANONIQUES 59 


l'étendue du domaine V’ est égale à celle du domaine V. Cette propriété constitue le théorème de 
Liouville: 

Le volume du domaine occupé dans l’espace des phases par un ensemble de trajectoires se conserve 
au cours du temps. 

Ce théorème joue évidemment un rôle important en mécanique statistique. Il prédit, par exemple, 
la conservation de l’entropie dans une évolution hamiltonienne. Notons que ce théorème ne tient pas 
en présence de dissipation. N'importe quelle condition initiale conduit en effet à un état de repos où les 
coordonnées n’évoluent plus. Soulignons aussi le lien entre ce théorème et le théorème de conservation 
de l’étendue en optique. L’étendue joue le rôle du volume dans un espace des phases {position des 
rayons/angle }. 

Ce paragraphe clôt notre exposé de mécanique analytique. Nous n’avons pas, de loin, donné un 
exposé exhaustif de ce sujet. Les grands domaines que nous n’aborderons pas sont les méthodes de 
résolution, telles que la méthode de Hamilton Jacobi. Nous ne dirons rien, non plus, des méthodes 
de perturbations classiques, si utiles en astronomie. Nous évoquerons brièvement dans la prochaine 
partie les extensions du formalisme lagrangien à des coordonnées continues (en un mot à des champs), 
mais sans épuiser non plus ce très vaste sujet. Finalement, nous ne saurions trop recommander au 
lecteur de se rapporter aux manuels de mécanique quantique pour explorer les liens très profonds 
entre mécanique quantique et mécanique analytique. Si une présentation de la mécanique quantique à 
partir de la dynamique classique et de sa quantification canonique n’est pas à recommander pour une 
première approche de la mécanique quantique, elle est extrêmement enrichissante à un niveau plus 
avancé. 
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Appendice 1 


Modèle de Bohr 


Nous traiterons dans cet appendice du premier modèle réaliste de structure atomique, celui de Bohr 
en 1913. Il nous sera en effet nécessaire à plusieurs endroits du cours pour des discussions qualitatives 
du rayonnement atomique. Comme ce modèle fait explicitement référence aux concepts d’action et 
a donné lieu, au cours de son évolution, à des développements élégants de mécanique classique, il a 
tout naturellement sa place dans ce cours de mécanique analytique. Nous commencerons par un bref 
rappel de la situation historique au moment de la formulation du modèle de Bohr. Nous l’exposerons 
ensuite dans un deuxième paragraphe. Dans un dernier paragraphe, nous préciserons ses limitations 
et les tentatives, menées entre autres par Bohr et Sommerfeld, pour raffiner le modèle et l'appliquer 
à d’autres atomes que l'hydrogène. Enfin, nous rappellerons brièvement, pour mémoire, les résultats 
quantiques rigoureux. 


1.1 Un peu d'histoire 


Les difficultés de la mécanique classique et les débuts de la mécanique quantique, au tournant du 
siècle, sont dues à essentiellement deux problèmes: le rayonnement du corps noir et la structure des 
spectres d'émission ou d'absorption des vapeurs. 

Quand on traite en thermodynamique classique le rayonnement d’un corps complètement absorbant 
en équilibre thermique, on trouve la célèbre loi de Rayleigh Jeans. La densité de puissance spectrale 
du rayonnement (quantité d'énergie par unité de volume et de fréquence) est proportionnelle au carré 
de la fréquence. La quantité totale d'énergie électromagnétique contenue dans un corps en équilibre 
devrait donc être gravement infinie. Ce n’est bien sûr pas le cas et les données expérimentales, relative- 
ment précises à la fin du siècle dernier, donnaient un spectre décroissant rapidement à haute fréquence. 
Pour expliquer ce spectre, Planck introduisit, en 1900, une hypothèse de quantification. Les échanges 
d'énergie entre matière et rayonnement ne peuvent se faire, à une fréquence donnée, que par multiples 
entiers d’une quantité fondamentale, proportionnelle à la fréquence, selon la fameuse relation E = hv. 
La constante de Planck, h, une fois ajustée aux données expérimentales, l’accord entre les spectres 
calculés et les spectres expérimentaux se révélait excellent. En fait, Planck considérait cette hypothèse 
comme heuristique et doutait de sa signification physique. Ce n’est qu'avec Einstein, 5 ans plus tard, 
que l’idée de quantification de l’énergie électromagnétique fit une avancée notable avec l’introduction 
de quanta lumineux. Ceux-ci, qu’on devait appeler plus tard photons, sont nécessaires pour analyser, 
au-delà des valeurs moyennes, les fluctuations du rayonnement. On peut alors interpréter convenable- 
ment les propriétés de l'effet photoélectrique, ce qui valut son Nobel à Einstein (la relativité générale 
paraissait peut-être trop audacieuse pour être couronnée). 

L'histoire de la spectroscopie est pour sa part très riche. Dès 1802, Wollaston, avec un spectro- 
graphe à prisme, observait des bandes sombres bien résolues dans le spectre solaire, bandes qui ne 
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sont pas présentes dans le spectre des corps chauffés!. C’est sans doute là la première observation 
d’un spectre d’absorption atomique. Wollaston décrit en particulier une bande très intense dans le 
jaune qui devait être la raie principale du sodium. En 1817, Fraunhofer, encore très jeune, raffine ces 
mesures et observe les raies “de Balmer” du spectre de l’hydrogène (l'appellation Balmer est beaucoup 
plus récente comme on le verra). Il invente peu après le réseau de diffraction et l’histoire de la spec- 
troscopie de précision commence. Il mesure avec grand soin (et avec une précision de l’ordre de 1074) 
la position des raies de Balmer. La nature de ces raies reste toutefois très controversée. En parallèle 
avec ces études du spectre solaire, l’étude du spectre d'émission de décharges dans les gaz se poursuit. 
Masson, en 1851, franchit un pas important en montrant que certaines raies peuvent être attribuées 
sans ambiguïté à la présence d'hydrogène. C’est la première identification fiable d’un élément avec un 
spectre de raies. Un nouveau pas important est franchi avec Ângstrôm, qui remarque et explique la 
coïncidence des raies d'émission de l’hydrogène avec les raies d'absorption dans le spectre solaire. Il 
conclut que tout élément peut aussi bien absorber ou émettre de la lumière sur une de ses fréquences 
propres. Des atlas détaillés du spectre solaire sont publiés ensuite par Ångström, Rowland et Huggins 
(c’est sur les travaux de ce dernier que Balmer s’est, semble-t-il, appuyé). 

On a cherché dans le même temps, en manipulant les données spectrales, à dégager des lois aux- 
quelles pourraient obéir les fréquences des raies spectrales, en particulier pour l’hydrogène dont le 
spectre est simple. On pensa ainsi, pendant un temps, que les différentes fréquences émises par 
l'hydrogène pourraient être des harmoniques d’une fréquence fondamentale (travaux de Stoney en 
1871). Les coïncidences numériques supportant cette approche s’évanouirent rapidement avec les 
progrès de l’instrumentation et en particulier ceux des spectrographes à réseau. 

Un progrès important fut accompli par Balmer en 1885. Déjà âgé, simple instituteur, il manipule 
les données sur le spectre de l’hydrogène. Il observe que les longueurs d’onde des raies visibles du 
spectre de l’hydrogène sont proportionnelles à des fractions rationnelles simples faisant intervenir 
les carrés des nombres entiers, sous la forme m?/(m° — n°), avec n = 2. Ce travail remarquable fut 
complété par celui de Rydberg, en 1889, qui remarque qu’il vaut mieux considérer les nombres d’ondes 
(inverses de longueurs d’onde). Les nombres d’ondes des raies de nombreux éléments s’obtiennent en 
effet simplement comme différences de termes en R/n? où n est entier et où R est la maintenant 
célèbre constante de Rydberg. Le principe de combinaison de Ritz, formulé en 1908, généralise ce 
travail. La découverte de nouvelles séries de raies de l'hydrogène s’accordant avec les formules de 
Balmer (n = 3 par Paschen en 1908, n = 1 (ultraviolet lointain) par Lyman en 1916, n = 4 par 
Brackett en 1922, n = 5 par Pfund en 1924, n = 6 par Humphrey en 1953) apporta au cours du temps 
des confirmations remarquables de la formule de Balmer. Bien sûr, la découverte par Michelson et 
Morley (encore eux) de sous-structures dans les raies de l’hydrogène (nous dirions aujourd’hui de la 
structure fine) complique un peu le tableau, mais le succès des formules de Balmer ou de Rydberg 
demeure. 

S’il existe une relation aussi simple entre les fréquences, on doit chercher un modèle physique qui 
les prédise correctement. Le premier modèle “réaliste” de la structure de l’atome d'hydrogène est dû à 
Thomson, découvreur de l’électron en 1897 au Cavendish Laboratory, fondé par Maxwell environ 20 ans 
avant (en fait la découverte de l’électron pourrait aussi bien être attribuée à Wiechert, qui travaillait 
indépendamment). Comme on savait que la matière contient des électrons, Thomson imagine un 
atome constitué d’une gelée, uniformément chargée positivement, de forme sphérique, dans laquelle se 
déplacent des électrons indépendants. Le champ électrique produit par la gelée étant proportionnel à 
la distance, les électrons sont élastiquement liés et effectuent un mouvement harmonique de fréquence 
donnée. Nous utiliserons assez largement ce modèle très simple dit du “plum—-pudding” dans le chapitre 
sur le rayonnement des sources atomiques. Nous verrons qu’il prédit correctement de nombreux ordres 
de grandeur. 

Ce modèle, en dépit de certains succès, dut être abandonné après les expériences de déviation de 


Cette brève histoire de la spectroscopie s'inspire d’un article de G.W. Series, dans The Hydrogen Atom, Bassani et 
al. éditeurs, Springer, 1989. 
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particules œ dans des feuilles d’or. En interprétant ces résultats, Rutherford, lui aussi directeur 
du Cavendish, fut conduit en 1910 à admettre la présence dans la matière de charges positives 
extrêmement localisées. Il fallait donc renoncer au modèle du plum—-pudding et venir à un modèle 
planétaire de la structure atomique, avec des électrons orbitant sous l’influence de la force de Coulomb 
autour d’un noyau pratiquement ponctuel. Bien évidemment, un tel système rayonnerait ou ab- 
sorberait à la fréquence de révolution de l’électron. 

Ce modèle présente des difficultés sérieuses. La première est que rien a priori ne fixe les paramètres 
de l’orbite et donc la fréquence d'émission. On pourrait donc s’attendre à voir les atomes rayonner ou 
absorber des longueurs d’onde arbitraires. De façon plus grave, ce modèle est manifestement instable. 
En rayonnant, l’électron en mouvement perd de l’énergie et le rayon de son orbite diminue (nous 
ferons le calcul explicitement dans la quatrième partie). La fréquence du mouvement augmentant, la 
perte d’énergie et la chute vers le noyau deviennent de plus en plus rapide. En quelques dizaines de 
picosecondes, tous les électrons de l’univers auraient dû tomber sur leur noyau en émettant un bref 
flash de radiation ultraviolette. Cette catastrophe ultraviolette ne s'étant pas produite encore, il faut 
y voir un grave défaut du modèle. 


1.2 Modèle de Bohr 


L’attitude de Bohr est tout à la fois pragmatique et extrêmement audacieuse. Puisque rien ne peut 
expliquer la stabilité et le caractère discret de la structure atomique, c’est qu’il faut introduire dans 
le modèle une condition supplémentaire de “quantification”. Dans cette démarche, Bohr était sans 
doute guidé par les résultats de Planck. Puisque la constante de Planck décrit la quantification pour le 
rayonnement électromagnétique, il est assez naturel de tenter de l'utiliser pour la structure atomique. 
Cette constante ayant la dimension d’une action, il est naturel aussi de quantifier l’action de l’électron 
sur sa trajectoire. 
Nous poserons donc que l’action, calculée sur une orbite, est un multiple entier (évidemment non 
nul) de la constante de Planck: 
S=nh. (1.1) 


Nous allons utiliser cette condition pour déterminer l’énergie de l’orbite, c’est à dire le terme spectral de 
Ritz qui lui est associé. Les fréquences des différentes transitions s’obtiendront comme des différences 
de ces termes spectraux. 

Le gradient de l’action par rapport à l’extrémité de la trajectoire étant l’impulsion, cette quantité 
s'écrit évidemment: 


S= p-d, (1.2) 


r étant la position de l’électron sur son orbite elliptique. L’action dépend donc de l’énergie de l’orbite, 
fixée par le demi grand axe de l’ellipse, mais aussi de l’excentricité de celle-ci. Pour fixer les paramètres 
de l'orbite, il faut imposer une condition supplémentaire. Bohr considère donc seulement des orbites 
circulaires. Une telle limitation, très arbitraire, n’est justifiée que par son succès. Sur une telle orbite 
les modules de la vitesse v et de r sont constants et on a évidemment: 


S = 2rmrv = 2rL = nh (1.3) 


où m est la masse de l’électron et L la norme du moment angulaire. Notons que nous devrions utiliser 
ici en toute rigueur la masse réduite de l’électron qui tient compte de l’effet d'entraînement du noyau. 
Cet effet et même sa variation d’un isotope de l’hydrogène à l’autre sont parfaitement mesurables. 
Pour simplifier, nous considérerons dans la suite la masse du proton comme infinie. Les constantes que 
nous définirons sont alors exprimées en fonction de la vraie masse de l’électron et il faudrait appliquer 
des facteurs correctifs aux formules pour tenir compte de l’effet d'entraînement. 


2Nous ne reproduisons pas ici les arguments originels de Bohr, un peu moins accessibles. 
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La condition de quantification de Bohr s'écrit donc aussi: 
L=nħ, (1.4) 


où À = h/27. C’est sous cette forme qu’elle est le plus souvent écrite. 
En 1923, De Broglie introduit une onde associée à toute particule quantique dont la longueur 
d’onde est donnée par la célèbre relation: 
à=h/p. (1.5) 


On constatera sans peine que la relation de quantification de Bohr est équivalente à postuler que le 
périmètre de l’orbite est égal à un nombre entier de longueurs d’onde de de Broglie. Cette condition 
“d'onde stationnaire” est très suggestive mais ne pourra être employée de façon quantitative avant le 
développement de l’équation de Schrödinger en 1926. 

En notant e le module de la charge de l’électron et en écrivant l’équilibre de lélectron sur sa 
trajectoire circulaire, on montre immédiatement que 


<s 1.6 
Fe ATEoTM ` (1-6) 


En reportant cette expression dans la condition de quantification, on trouve le rayon de l'orbite: 


r = apr? , (1.7) 
où ao, rayon de Bohr, est défini par: 
Areoh? 
= | 1.8 
pi me? (1-8) 


Numériquement, le rayon de Bohr, qui est le rayon de l’état fondamental de l'hydrogène, vaut 0.053 nm. 

Il est physiquement intéressant de comparer le rayon de Bohr à une longueur caractéristique formée 
avec les paramètres de l’électron et la constante de Planck. Il s’agit de la longueur d’onde de Compton 
de l’électron: 


h 
Dr 1.9 
© me (19) 
(on se référera au chapitre sur la relativité restreinte pour une description détaillée de l’effet Compton, 
collision d’un photon énergétique et d’un électron). On peut écrire: 


C 


a = ; (1.10) 


~ 2ra 


e2 


a = Hohe (1.11) 
(c est la vitesse de la lumière dans le vide). Cette constante, sans dimensions, numériquement égale 
à 1/137, joue un rôle essentiel dans le modèle de Bohr et au delà dans toute l’électrodynamique 
quantique. Si, pour des raisons purement historiques, elle est appelée “constante de structure fine”, 
elle mesure en fait la “force” de l’interaction électromagnétique. C’est en effet la seule constante sans 
dimension formée avec les paramètres de l’électromagnétisme (charge de l’électron et vitesse de la 
lumière) et la constante de Planck. Pratiquement tous les résultats de l’électrodynamique quantique 
peuvent se mettre sous la forme d’une fonction simple de cette constante ou d’un développement en 
ses puissances. Le modèle de Bohr ne fera pas exception à la règle. 

Il est maintenant trivial de calculer l’énergie de l’électron sur son orbite et donc le terme spectral 
de Ritz. On a 


E=-— (1.12) 
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(cette énergie, correspondant à un état lié, est évidemment négative). On retrouve bien les termes 
spectraux en 1/n? de la formule de Balmer. La constante R, qui n’est autre que la constante de 
Rydberg, peut s’écrire: 


e2 


R = — . 1.13 
8TE0G0 


On vérifiera sans peine qu’elle s'écrit aussi, en termes de la constante de structure fine et de l’énergie 


relativiste de masse de l’électron, mc?, comme: 


R=mMmeÉ—. (1.14) 


On vérifiera sans peine que la valeur numérique est de 13.6 eV. 

Nous avons ici calculé les fréquences de transition comme si la masse du proton était infinie. Pour 
une masse finie, on trouve encore bien sûr une loi en 1/n°, avec une constante de Rydberg légèrement 
modifiée Rm = R/(1+m/M) où M est la masse de noyau (1836 m pour l’hydrogène). Les fréquences 
des raies émises s’interprètent alors simplement. L’atome peut effectuer une transition entre deux 
niveaux quantiques en émettant ou en absorbant un photon ayant une énergie égale à la différence des 
énergies du niveau initial et du niveau final. La fréquence de la transition entre les niveaux n et m 
est donc de la forme (R/h)(1/n? — 1/m?), coïncidant avec la formule de Balmer et les extensions par 
Rydberg. 

Notons enfin qu’on peut, à partir de ces différentes expression, réécrire la vitesse de lélectron sous 
la forme: 


(1.15) 


1.3 Au delà du modèle de Bohr 


Le modèle de Bohr explique donc parfaitement les fréquences des raies de hydrogène en dépit du 
caractère un peu artificiel des hypothèses de départ (orbite circulaire et condition de quantification ad 
hoc). Il est cependant insuffisant pour expliquer les structures fines observées très tôt dans le spectre. 
Un pas important est franchi indépendamment par Sommerfeld et Wilson en 1915. Ils considèrent 
un mouvement elliptique plus général et imposent des conditions de quantification à tous les couples 
de variables conjuguées ayant une influence sur la dynamique. En termes modernes, ils quantifient le 
mouvement radial et la norme du moment angulaire. La formule obtenue est en parfait accord avec 
les structures fines mesurées (et avec la théorie quantique moderne au même ordre d’approximation). 

Bien sûr, Bohr, Sommerfeld et bien d’autres cherchent ensuite à adapter cette “première théorie 
des quanta” à des systèmes atomiques plus complexes. Ils s'intéressent à l’hélium, le plus simple des 
systèmes complexes avec ses deux électrons (le spectre expérimental est alors bien connu). Et c’est 
là où le bât blesse! Le système à trois corps ne peut en effet être traité explicitement en mécanique 
classique. Les règles de quantification utilisées pour l’hydrogène ne sont pas directement applicables. 
Commence alors un superbe travail de mécanique céleste visant à mettre la version classique du 
problème sous une forme propre à la quantification. En dépit d'efforts énormes, tirant parti des 
techniques les plus sophistiquées de la mécanique analytique, toutes ces tentatives échoueront et il ne 
sera pas possible de donner une interprétation convaincante du spectre de l’hélium. Un grave crise de 
la mécanique quantique s’ensuivit. Elle ne sera réglée qu’en 1925-1926 par l'invention simultanée de la 
mécanique des matrices par Heisenberg et de la mécanique ondulatoire par Schrödinger (on reconnaîtra 
très rapidement l’équivalence des deux approches, en dépit d’un débat plutôt vif initialement entre 
Heisenberg et Schrödinger). 

Nous ne rappellerons pas ici les développements suivants qui ont permis, en particulier avec Dirac, 
qui introduit la relativité dans le problème, de donner une théorie complète et rigoureuse de l'atome 
d'hydrogène et, au prix de techniques de calculs complexes, des éléments plus lourds. Notons toutefois 
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que l'atome d'hydrogène a continué longtemps à constituer une pierre de touche de la mécanique 
quantique. La mesure et l'interprétation du déplacement du niveau 2$ par rapport au 2P;,2, nul dans 
le modèle relativiste de Dirac, le fameux “Lamb shift”, a joué un rôle essentiel dans le développement 
de la théorie quantique des champs et des techniques de traitement des infinis. 

Pour mémoire, nous rappellerons brièvement ici les résultats de la mécanique quantique standard 
non relativiste. On en trouvera une dérivation détaillée dans le Cohen. Les fonctions d’onde propres 
du Hamiltonien quantique (constitué du seul potentiel Coulombien en 1/r) sont repérées par trois 
“nombres quantiques” n,£ et m. Elles se mettent, en coordonnées sphériques, sous la forme du 
produit d’une fonction de r par une fonction de la direction angulaire, une “harmonique sphérique” : 
Yrém = Rner)Y}"(0,@). £ décrit la longueur du moment cinétique: le carré du moment cinétique 
vaut {({+1)ñ?. lest un nombre entier positif ou nul. m décrit la projection du moment cinétique sur 
un axe “de quantification”, Oz en l’occurrence. Cette projection vaut simplement mA et est comprise 
entre —Ÿ et L. Enfin, n, nombre quantique principal, décrit le nombre des “extrema” (nombre de zéros 
plus un) de la fonction d’onde radiale Rne. On montre que £ est au plus égal à n — 1. L’énergie du 
niveau n, l,m est, à ce degré d’approximation, R/n?, la valeur prédite par le modèle de Bohr. 

On peut donc classer les niveaux par valeurs croissantes du nombre quantique principal. Le niveau 
n = 1, £ = m = 0, fondamental, est appelé 1S. Généralement, les niveaux de £ = 0 sont notés S, 
{=1P,£{—=2Det £= 3 F. Ces notations, anciennes mais universelles, sont descriptives de l’aspect 
des raies spectrales: S pour “sharp”, P pour “principal”, D pour “diffuse”, F pour “fundamental”. 
Les raies connectant un niveau S au fondamental, S lui aussi, sont interdites par transition dipolaire 
électrique. Elles ont donc une durée de vie importante et une très faible largeur spectrale. Elles sont 
aussi relativement insensibles aux champs électriques ou magnétiques parasites. Les raies d’un niveau 
P vers le fondamental S sont très autorisées et donc très intenses. Les raies des niveaux D sont très 
sensibles aux champs électriques parasites dans les décharges et apparaissent larges, diffuses, dans les 
spectres. 

Avec ces notations, les premiers niveaux excités sont 2S et 2P (m = 0, +1). Les suivants 3S,3P,3D.... 
Les fonctions d’onde correspondantes, pour mémoire, sont 


1 
Yis = me (1.16) 
nag 
1 r 
Dog = —= |1- — ) e77% 1.17 
25 ai =e (1.17) 
VoPm=t1 = F > (2) e7"/280 sin getm? (1.18) 
que 8,/Taÿ \0 
VoPm=0 = ——(© e-7/200 cos 0 . (1.19) 
41/2raà \Q0 


Ce modèle n’est qu’approché. Il faut lui ajouter les effets relativistes (qui impliquent en particulier 
l'existence du spin de l’électron) et les effets d’entraînement du noyau décrivant, ensemble, la structure 
fine. Il faut aussi tenir compte de l’interaction entre l’électron et le spin nucléaire, des effets de volume 
du noyau (un proton n’est pas ponctuel) et enfin des corrections radiatives qui décrivent le Lamb shift. 
Tout cela peut être calculé avec une précision remarquable, puisque l’accord théorie/expérience sur le 
spectre de l'hydrogène atteint maintenant presque les 107}? en valeur relative, précision limitée seule- 
ment par la connaissance de la structure du proton, qui joue un rôle essentiel à ce degré d’exactitude, 
et par la stabilité des horloges étalon utilisées pour la détermination des fréquences. Avec de tels 
accords, la constante de Rydberg est sans aucun doute la constante la mieux connue de la physique 
fondamentale. 

Ces fonctions d’onde sont bien éloignées du modèle d’orbite circulaire de Bohr. En fait, les niveaux 
S qui correspondent à un moment cinétique orbital nul seraient représentés en mécanique classique 
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par une orbite complètement dégénérée en une droite où l’électron rebondit à chaque période sur le 
noyau. L’incertitude quantique rend, qualitativement, “incertaine” la direction de cette orbite et les 
fonctions d'onde quantiques des états S sont à symétrie sphérique. Si on peut retrouver des orbites 
de Bohr, ou quelque chose qui y ressemble un peu, c’est en allant vers les grand nombres quantiques. 
Le principe de correspondance nous enseigne en effet que les résultats de la mécanique quantique 
doivent rejoindre ceux de la mécanique classique quand tous les nombres quantiques sont grands. Un 
grand nombre quantique principal (n de l’ordre de quelques dizaines) correspond à ce qu’on appelle 
maintenant un état de Rydberg. En effet, pour ces niveaux très excités, l’électron orbite très loin 
du noyau et des autres électrons et tout se passe comme si l’atome était hydrogénoïde, avec des 
niveaux en 1/n?. Les autres nombres quantiques doivent être grands eux aussi: l = |m| = n — 1. 
L’orbitale de ces niveaux, dits “circulaires” dans la littérature moderne, est un tore très mince centré 
sur un cercle de rayon apn?. C’est évidemment l’orbitale la plus proche du modèle de Bohr. Bien 
sûr, l’électron ne peut être localisé précisément sur cette orbite circulaire et la densité de présence est 
uniforme le long du périmètre. Cependant, ces niveaux ressemblent beaucoup au modèle de Bohr et 
de nombreuses prédictions classiques de ce modèle donnent des ordres de grandeur corrects pour les 
atomes circulaires. 
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Partie II 


Relativité restreinte 


Introduction 


Nous décrirons dans ce chapitre la théorie de la relativité restreinte, essentiellement telle qu’elle fut 
formulée par Einstein. Initialement, l’objet de la relativité était de réconcilier l’électromagnétisme et 
la cinématique : comme nous avons vu dans l’introduction à ce cours, la relativité Galiléenne n’est pas 
directement compatible avec l’électromagnétisme tel qu’il fut formulé par Maxwell. C’est essentielle- 
ment sur l’application à l’électromagnétisme de la relativité restreinte que portera ce chapitre. En 
revanche, il faut bien voir que la relativité restreinte s’applique dans un beaucoup plus large domaine. 
Elle joue en particulier un rôle central pour la physique des particules et la physique des accélérateurs. 
Elle est aussi essentielle en astronomie, beaucoup de sources de rayonnement cosmiques impliquant 
des déplacements à des vitesse proches de celle de la lumière. 

Ce chapitre comportera deux étapes essentielles. Après un bref rappel de la relativité galiléenne, 
nous constaterons les difficultés que pose l’immersion de l’électromagnétisme dans cette relativité 
et donc dans la cinématique classique. Nous montrerons en particulier l’incompatibilité grave de 
l’électromagnétisme avec la loi ordinaire de composition des vitesses. Nous postulerons donc un 
nouveau principe de relativité, imposant à toutes les lois de la physique, y compris l’électromagnétisme, 
d’être invariantes dans un changement de référentiel galiléen. La vitesse de la lumière devenant 
indépendante du référentiel, la loi de composition des vitesses et l’ensemble de la cinématique sont 
condamnées. Il nous faudra donc d’abord détruire la cinématique et la dynamique? newtoniennes 
telles que nous les connaissons maintenant. 

Il nous faudra formuler une nouvelle transformation des coordonnées et du temps décrivant les 
changements de référentiels, la transformation de Lorentz. Nous verrons en effet, par quelques argu- 
ments très simples, qu’un des postulats de base de la mécanique classique, l'universalité du temps et 
de la simultanéité, doit être abandonné. On mesure peut être assez mal aujourd’hui à quel point la 
démarche d’Einstein fut audacieuse, remettant en cause les postulats les plus intuitifs de la mécanique. 
La phase conceptuellement la plus difficile de notre travail, qui fera l’objet du premier chapitre, sera 
alors terminée. 

Le deuxième chapitre, beaucoup plus mathématique que physique, sera consacré à l’introduction 
de notations tensorielles, bien adaptées à l’espace-temps à quatre dimensions de la relativité. Nous 
introduirons en particulier des conventions de notations très puissantes, dues à Einstein, qui permettent 
d'écrire de manière compacte et fiable les expressions parfois complexes auxquelles conduisent les 
calculs relativistes. Ces notations s’avèrent indispensables pour aborder la relativité générale, théorie 
géométrique de la gravitation. 

Nous formulerons, au chapitre suivant, les lois de la nouvelle dynamique. Nous écrirons en par- 
ticulier, dans une approche lagrangienne, le lagrangien d’une particule libre et nous en déduirons 
l'expression de la quantité de mouvement relativiste. Nous démontrerons en passant la formule la plus 
célèbre de l’histoire de la physique (nous laissons au lecteur le soin de deviner laquelle). Nous don- 
nerons également la forme relativiste du principe fondamental de la dynamique que nous ne pourrons 
guère exploiter sans une forme explicite des forces, au moins de la force de Lorentz. Nous n’explorerons 
donc pas très en détails cette partie de la relativité qui se conclura par une brève description de la 


SRappelons que la cinématique décrit les mouvement indépendamment de leurs causes et que la dynamique permet 
de prévoir le mouvement si on en connaît les causes. 
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théorie relativiste des collisions, d’une grande importance en physique des particules. 

Pour un cours centré sur l’électromagnétisme, nous consacrerons en effet l’essentiel de nos ef- 
forts au dernier chapitre de cette partie. Nous chercherons à y construire une théorie non triviale 
d'interaction entre particules transmise par un champ. Nous postulerons des formes simples pour 
le lagrangien d'interaction et pour le lagrangien décrivant ce champ et nous écrirons les équations 
de Lagrange correspondantes. Nous constaterons sans déplaisir que la structure de cette théorie de 
champ est celle de l’électromagnétisme. Nous aurons donc montré à quel point l’électromagnétisme 
de Maxwell s’adapte naturellement au cadre relativiste. Nous en profiterons pour examiner quelques 
problèmes simples d’électromagnétisme, du mouvement de particules relativistes dans des champs 
imposés aux bilans d’énergie-impulsion pour le champ lui même. Nous montrerons ainsi que cette 
approche complètement relativiste, outre son élégance, permet de dériver des lois importantes qui ne 
sont accessibles qu’au prix de calculs lourds en électromagnétisme “classique”. 


Chapitre 1 


Cinématique relativiste 


La première étape est donc de comprendre les incompatibilités entre électromagnétisme et cinématique 
classique, et de refonder une cinématique tout à fait nouvelle. Nous allons commencer par quelques 
très brefs rappels de cinématique galiléenne ou newtonienne. 


1.1 Rappels de relativité galiléenne 


1.1.1 Transformation de Galilée 


Il est très intuitif que le mouvement d’un point dépende de l’observateur. Pour utiliser un vocabulaire 
ferroviaire’, le passager de train a une vitesse faible ou nulle par rapport à celle du contrôleur, alors 
qu’il a une vitesse élevée par rapport au garde barrière. 

La notion centrale de la cinématique (classique ou relativiste) est celle de référentiel. Un référentiel, 
c’est un ensemble d’observateurs, immobiles les uns par rapport aux autres. Ces observateurs peu- 
vent constater le passage du mobile à leur position. La connaissance de la position des observateurs 
concernés permet alors de déterminer la trajectoire du mobile. On peut bien sûr convenir d’un repère 
(cartésien, orthonormal) pour repérer ces positions au moyen de trois coordonnées. Les observateurs 
sont de plus munis d’horloges qui leur permettent de noter l’instant auquel le mobile passe en face 
d’eux, le mouvement étant alors complètement déterminé par la trajectoire et la loi horaire. Ces hor- 
loges peuvent être constituées de n’importe quel phénomène physique périodique, suffisamment rapide 
à l’échelle du mouvement pour en donner une description temporelle convenable. Nous supposerons 
que toutes les horloges de tous les observateurs d’un même référentiel sont synchronisées (indiquent 
la même valeur au même instant). Cette synchronisation ne pose aucune difficulté en cinématique 
classique, puisque temps et espace sont complètement découplés. Il suffit, par exemple, que tous les 
observateurs se retrouvent en un même point pour faire le zéro de leurs horloges à un moment com- 
mun. Certes, ces précautions pour la définition du temps paraissent superfétatoires en cinématique 
classique. Nous verrons, en revanche, qu’elles sont très importantes en cinématique relativiste. 

Un mouvement dans un référentiel R est alors défini par les trois fonctions z(t), y(t), z(t) repré- 
sentant la position en fonction du temps commun des observateurs. Le même mouvement serait 
décrit dans un autre référentiel R’, en mouvement par rapport à R, par trois autres fonctions du 
temps commun des observateurs de R’: x'(t'),y'(t'),z'(t'). En mécanique classique, on admet sans 
restrictions l'identité des temps (à une synchronisation près) des observateurs de R et de R/?. Il 


ILes papiers originaux sur la relativité emploient souvent des expériences de pensée utilisant des trains et des gares, 
parfois même des tunnels. C’est sans doute lié au succès grandissant des transports ferroviaires au début du siècle et à 
leur importance sociologique. Pour céder à la tradition, nous emploierons ce genre de vocabulaire dans ce cours, bien 
que les effets relativistes soient complètement négligeables, même avec les trains les plus modernes. 

2Cette hypothèse était déjà faite explicitement par Newton dans ses Principia. S'il en avait tout à fait reconnu 
l'importance, il n’avait guère de doutes sur sa validité. 
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Figure 1.1: Choix des axes dans deux référentiels R et R’ en mouvement relatif. Les axes des deux repères sont 


parallèles. Les axes Ox et O'x', alignés avec la vitesse relative u, coïncident à chaque instant. 


est possible alors de donner la transformation qui fait se correspondre les mouvement vus dans deux 
référentiels différents. 

Dans le cas le plus simple, où les deux référentiels sont en translation uniforme l’un par rapport 
à lautre, cette transformation est la transformation dite de Galilée. Sans restreindre du tout la 
généralité, on peut choisir les axes dans R et R’ de telle manière que: 


e Les axes Ox et O'x’ coïncident a tout instant et sont parallèles à la vitesse u de R’ par rapport 
à R. 


e Les origines O et O’ sont confondues à l'instant t = 0. 


e Les axes Oy et O'y!, d’une part, et les axes Oz et O'z’, d’autre part, sont constamment parallèles 
et coïncident à t = 0. 


La figure 1.1 présente la géométrie choisie. Nous l’exposons en détail parce que nous choisirons la 
même pour décrire les changements de référentiel en relativité restreinte. 
La loi de transformation de Galilée s’écrit alors trivialement: 


x'(t) = x(t) — ut 
y(t) = y(t) (1.1) 
z'(t) = z(t) 


C’est cette transformation, tellement triviale qu’elle est bien rarement écrite explicitement, qui sera 
remplacée par la transformation de Lorentz en relativité einsteinienne. Cette transformation de Galilée 
contient, par simple dérivation par rapport au temps, la loi de composition des vitesses: 


v=v +u (1.2) 


(vitesse absolue égale vitesse relative plus vitesse d'entraînement). 

La dynamique newtonienne résulte alors du principe d’inertie de Galilée: il existe une classe de 
référentiels privilégiés, les référentiels galiléens, en mouvement de translation uniforme les uns par 
rapport aux autres, tels que le mouvement d’une particule libre y soit rectiligne et uniforme. 
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1.1.2 Les difficultés de la cinématique classique 


La loi de composition des vitesses, telle que nous venons de la rappeler, est difficilement compatible 
avec l’électromagnétisme de Maxwell. La conséquence la plus importante et la plus nouvelle des 
équations de Maxwell est en effet la prédiction de l’existence d’ondes se propageant à la vitesse c. Le 
problème qui apparaît immédiatement est celui du référentiel dans lequel cette vitesse est définie, le 
seul donc dans lequel les équations de Maxwell seraient directement applicables. 

Le sentiment le plus naturel, qui prédominait très largement à la fin du siècle dernier, était que les 
ondes électromagnétiques se propageaient dans un milieu baignant lunivers entier: l’éther. L’analogie 
entre ondes électromagnétiques et ondes sonores était en effet présente à tous les esprits. Les difficultés 
apparaissent toutefois très vite dès qu’on examine les propriétés de cet hypothétique éther. Il doit en 
effet être omniprésent et infiniment rigide pour propager des ébranlement transverses à grande vitesse. 
Mais il doit, dans le même temps, être impondérable et infiniment perméable au mouvement des corps 
matériels (puisque, par exemple, l’étude sur quelques siècles de la rotation terrestre ne révèle aucun 
frottement). Ce “fluide” si particulier se trouvait ainsi doté de propriétés presque aussi extraordinaires 
que le calorique du siècle précédent ou, encore avant lui, le phlogistique. 

Il existe aussi une difficulté philosophique grave avec l’introduction de l’éther. Les physiciens 
avaient mis plus de 20 siècles, entre Aristote et Copernic, pour comprendre que notre petite planète 
n’est pas le centre de lunivers. Le principe de relativité selon Galilée avait le mérite d’indiquer 
qu'aucun référentiel galiléen n’est particulièrement privilégié. L'introduction de l’éther devait briser 
cette “démocratie” des référentiels en introduisant un référentiel très particulier, celui de léther, le 
seul dans lequel les équations de Maxwell devaient s'appliquer. Ce genre d’argument a certainement 
joué un rôle essentiel pour Einstein. 

Les dernières difficultés, les plus graves en pratique, mais qui n’ont pas forcément joué le rôle 
majeur qu’on leur attribue généralement dans la genèse de la relativité, sont d’ordre expérimental. Si 
la vitesse de la lumière est définie dans le référentiel de l’éther et si elle obéit à la loi de composition des 
vitesses, on doit pouvoir mesurer une variation de cette vitesse pour des mouvements assez rapides par 
rapport à l’éther. Le mouvement de la terre sur son orbite autour du soleil est suffisamment rapide (30 
km/s) pour que la variation soit mesurable dans une expérience d’interférométrie optique sensible. La 
célèbre expérience de Michelson fut conçue dans ce but. D’une sensibilité tout à fait remarquable pour 
l’époque, encore honorable aujourd’hui, elle aurait dû mettre clairement en évidence le mouvement de 
la terre par rapport à l’éther*. Or cette expérience fut tout à fait négative (ou plutôt très positive): 
la vitesse de la lumière semblait indépendante du mouvement de la terre par rapport au soleil. 

On pouvait, devant ce résultat négatif, adopter deux points de vue. Le premier était de tenter de 
“réparer” la théorie de l’éther. Si on ne pouvait décemment supposer que le référentiel absolu était 
celui de la terre (la révolution copernicienne était passée par là), on pouvait supposer que l’éther était 
entraîné au voisinage des corps massifs, une analogie évidente avec l’entraînement de la couche limite en 
hydrodynamique. On pouvait aussi supposer, avec Lorentz, une “contraction” de la longueur des objets 
matériels dans la direction du mouvement, fondée sur une théorie électrostatique des interactions entre 
particules dans la matière. On pouvait supposer aussi un lien entre la vitesse de la lumière et celle de sa 
source (les sources utilisées par Michelson étant liées à son appareil). Si de telles modifications “ad hoc” 
de l’électromagnétisme permettaient d'expliquer le résultat négatif de l’expérience de Michelson, ils ne 
constituaient pas un corps théorique cohérent. Il était à craindre que de nouvelles modifications tout 
aussi arbitraires ne doivent être apportées au gré des résultats expérimentaux et que l’électrodynamique 
ne finisse, comme la théorie astronomique des cycloïdes, en un corps raffiné de règles arbitraires qui 
décrivent correctement mais ne prédisent rien. 

L'autre attitude, beaucoup plus courageuse puisqu'elle conduit, comme nous le verrons, à mettre 
en cause des notions très fondamentales, était d'admettre que la vitesse de la lumière n’obéissait pas à 


3Nous ne détaillerons pas ici le principe de cette expérience: cette description n’est pas indispensable pour la suite de 
l’exposé. Le lecteur intéressé pourra trouver une description détaillée dans pratiquement tous les manuels de relativité. 
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la loi de composition des vitesses. Cela impliquait bien sûr que la cinématique galiléenne était erronée 
(ou, du moins, n’était qu’une approximation valide pour des vitesses petites devant celle de la lumière) 
et donc que toute la physique était à reconstruire (sauf, peut être, l’électrodynamique). C’est la voie 
que suivit Einstein avec le succès que l’on connaît et qu’il ouvrit par son célèbre article de 1905: “Sur 
l’électrodynamique des corps en mouvement” 4. Le principe fondamental de cette nouvelle physique, 
le “principe de relativité” est exposé dans le prochain paragraphe. 


1.2 Principe de relativité 


1.2.1 Enoncé 


Il existe une classe de référentiels privilégiés, en translation uniforme les uns par rapport 
aux autres (que nous continuerons à appeler “référentiels galiléens”), dans lesquels toutes 
les lois de la physique prennent la même forme. 


Si toutes les lois de la physique prennent la même forme, les équations de Maxwell sont valides 
dans tous les référentiels et la vitesse de la lumière, c, est la même dans tous les référentiels. Nous 
centrerons cet exposé sur l’invariance de la vitesse de la lumière. Il serait tout aussi possible de ne pas 
faire jouer un rôle aussi central à l’électromagnétisme. On pourrait simplement postuler qu’il existe 
une vitesse limite de propagation de toutes les interactions et effectuer tous les raisonnements qui vont 
suivre sur cette vitesse. Il suffirait, enfin, de constater qu’expérimentalement la vitesse de la lumière 
dans le vide est identique à la vitesse limite, à la précision des mesures. Il n’est pas absolument exclus, 
en effet, bien que cela soit très peu vraisemblable, que le photon possède une très petite masse, rendant 
la vitesse de la lumière très légèrement inférieure à la vitesse limite qui apparaît en relativité. 

Ce principe de relativité, de prime abord, semble ne rien remettre en cause d’essentiel et semble 
très voisin du principe de relativité de la physique classique. Il n’en est rien, comme nous allons le voir 
en considérant deux expériences de pensée. Nous allons montrer en effet que le principe de relativité 
a deux conséquences immédiates: 


e Le temps ne s'écoule pas de la même façon dans deux référentiels galiléens en mouvement relatif 
(deux horloges en mouvement relatif bâties sur le même modèle ne battent pas au même rythme). 


e Deux événements qui se produisent simultanément dans un référentiel peuvent se produire à des 
instants différents dans un autre référentiel. 


Remettre en cause des propriétés aussi intuitives de l’espace et du temps ne sera pas sans con- 
séquences. Il est clair, en particulier, que la transformation appelée à remplacer la transformation 
de Galilée devra renoncer au caractère absolu du temps et mélanger les coordonnées spatiales et 
temporelles. 


1.2.2 Deux expériences de pensée 


Nous considérons donc deux référentiels en mouvement relatif, avec la géométrie décrite dans la figure 
1.1. Le référentiel R’ sera celui du contrôleur, ou du train, pour reprendre nos analogies ferroviaires, le 
référentiel R celui du chef de gare. Le contrôleur, situé en O’, envoie à t’ = 0 (nous ne confondrons pas 
les temps dans les deux référentiels) une impulsion lumineuse de durée négligeable dans la direction 
y' vers un miroir situé en y = L (voir figure 1.2). L’impulsion, réfléchie par le miroir, revient vers 
le contrôleur et l’atteint au bout d’un temps T” = 2L/c (nous supposerons, pour ce paragraphe 
seulement, que, pour la cinématique classique, la vitesse de l'impulsion est c dans R’ - l’ensemble 

ÆNous ne saurions trop recommander la lecture de cet article, ainsi que celle d’un article de revue rédigé dès 1907, qui 


constitue un exposé très pédagogique de la relativité (Edition de œuvres essentielles d’Einstein, Relativités I—éditions 
Seuil-CNRS). 
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M' | M 


O' x’ | O H B x 


Figure 1.2: Une expérience de pensée établissant le caractère relatif du temps. Un signal lumineux est émis depuis 
$ F DE À . . 4 2 . . . . . ~ 

l'observateur ©, le long de l’axe O'z , vers un miroir M. Après réflexion sur ce miroir, le signal revient à observateur 

O'. La même expérience est vue, à gauche, dans le référentiel du train et, à droite, dans un référentiel immobile. Pendant 


l'expérience, l'observateur O’ est passé de O à B. 


de l’argument pouvant être transposé sans difficultés au cas, plus naturel, où on supposerait que la 
vitesse de l’impulsion est c dans R). Notons que le contrôleur pourrait ainsi construire une horloge. 
Renvoyant une deuxième impulsion à l’instant précis où il reçoit la première, il établirait un phénomène 
périodique et donc une horloge. 

Regardons maintenant cette même expérience avec l'oeil du chef de gare (partie droite de la figure 
1.2). A t = 0, le contrôleur est en O’ et donc aussi en O. De son côté, le miroir s’est déplacé avant 
que l’impulsion ne l’atteigne. Il occupe donc une position M, à une certaine distance de O sur l’axe 
Ox. Enfin, le train continue à se déplacer pendant le retour de l’impulsion et le contrôleur occupe la 
position B au moment du retour. La trajectoire de l’impulsion dans R est triangulaire. 

Imaginons d’abord que le chef de gare ait été nommé avant 1905 et soit donc un adepte de la 
cinématique classique. Pour lui, la vitesse de la lumière obéit à la loi de composition. La vitesse 
de l’impulsion a donc une composante +c sur Oy et une composante u sur Ox (u étant la vitesse 
du train). Son module est donc vc? + u?. La durée du parcours OM étant L/c (on admettra dans 
toute la suite que la position du miroir selon y n’est pas affectée par le changement de référentiel; 
nous en donnerons plus tard une justification détaillée), on a OH = uL/c et la longueur OM vaut 
Lyc + u2/c. Le temps du parcours OM est donc L/c et la durée totale de l’expérience T = 2L/c est 
identique à celle vue par le contrôleur (la distance parcourue dans R est plus grande, mais le module 
de la vitesse est augmenté dans la même proportion). On retrouve bien, naturellement, le postulat 
d’universalité du temps. 

Considérons maintenant un chef de gare ayant admis la validité du postulat de relativité. Pour lui, 
la vitesse de l’impulsion est c. Le temps de parcours OM est donc OM/c. Il en déduit OH = uOM/c. 
Comme OM? = L? + OR?, on a OM = L//1 — w?/c?. Il obtient donc finalement: 


T=7T", (1.3) 


avec 
a (1.4) 
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Figure 1.3: Deuxième expérience de pensée illustrant le postulat de relativité. En haut, vue de la situation au moment 
où le chef de gare, situé en O, et le contrôleur, en O’ voient arriver simultanément les signaux lumineux émis par À et 
B. En bas, situation au moment où les signaux se sont allumés. O’ n’est pas encore arrivé en O. Les signaux s’allument 


en face des observateurs A’ et B’. 


Le facteur y (que nous aurons de nombreuses occasions de retrouver) est toujours supérieur à un. La 
durée de l’expérience mesurée par le chef de gare est plus longue que celle mesurée par le contrôleur. 
Si chacun construisait une horloge avec le même dispositif, celle du chef de gare battrait plus vite et 
avancerait par rapport à celle du contrôleur (un cauchemar pour le respect des horaires; heureusement, 
l'effet est petit comme on pourra le vérifier). Le postulat de relativité a pour conséquence immédiate 
que le temps n’est pas une notion universelle. 


Cette expérience de pensée nous fournit une autre indication sur ce que sera la cinématique rela- 
tiviste. Le facteur y n'existe que si la vitesse relative des deux référentiels est plus petite que c. Si ce 
n'était pas le cas, l'impulsion lumineuse qui se réfléchit normalement sur le miroir dans R’ n’arriverait 
jamais à rattraper ce miroir dans R, puisque sa vitesse n’est “que” c. Un événement (la réflexion) 
se produirait dans un référentiel et pas dans un autre, ce qui est bien sûr absurde. Deux référentiels 
galiléens ne peuvent donc être animés l’un par rapport à l’autre d’une vitesse supérieure (ou même 
égale) à c. Comme on peut attacher un référentiel galiléen à tout objet en translation uniforme, c 
apparaît aussi comme une vitesse limite pour tous les objets matériels. 


La seconde expérience de pensée que nous allons étudier nous emmènera encore plus loin, puisqu'elle 
nous forcera à renoncer au caractère absolu de la simultanéité. Nous utiliserons encore les services du 
chef de gare et du contrôleur embarqué sur son train. Le chef de gare est situé en O, à mi-chemin de 
deux signaux lumineux À et B. A l'instant t = 0, il voit ces deux signaux s’allumer simultanément. 
S’il sait, ou s’il mesure, que la même distance L le sépare des deux signaux, il en déduira qu’ils se sont 
allumés simultanément à l'instant t = —L/c. 

Au même instant t = t = 0, le contrôleur, situé en O’, passe devant le chef de gare. Il voit donc, 
à cet instant précis, les deux signaux À et B s’allumer. Comment peut-il en déduire l’instant auquel 
ils se sont allumés (dans son échelle de temps, bien sûr)? Il lui faut d’abord déterminer où les deux 
signaux se sont allumés dans son référentiel. Pour cela, il peut parcourir son train et rechercher les 
deux voyageurs À’ et B’ (les observateurs) qui étaient juste en face des signaux quand ils se sont 
allumés. Il pourra ensuite leur demander à quel instant cet événement s’est produit ou utiliser leur 
position et la vitesse de la lumière pour calculer cet instant. 
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Supposons d’abord que la cinématique classique s'applique. Le temps étant universel, les deux 
signaux s’allument dans R’ au même instant t = —L/c. A cet instant O’ est à une abscisse —uL/c 
par rapport à O. Les passagers A’ et B’ sont alors situés respectivement en x! = —L + uL/c et 
x! = L+ulL/c (voir la partie inférieure de la figure 1.3). La distance A'O’ = L(c — u)/c est donc 
inférieure à la distance B'O’ = L(c+u)/c. En revanche, la vitesse de l’impulsion venant de 4’ est 
c— u et la vitesse de l'impulsion venant de B’ est c+u. En appliquant la procédure décrite ci-dessus, 
le contrôleur établira donc que les deux signaux se sont allumés au même instant. L’un était plus 
proche, mais la vitesse de l’autre impulsion était plus grande. 

Que se passe-t-il maintenant si nous appliquons le principe de relativité? La vitesse des deux 
impulsions lumineuses est la même. Nous ne pourrons pas, pour le moment, déterminer la position 
des observateurs 4’ et B’ (il nous faudra la transformation de Lorentz pour cela). Nous pouvons 
comprendre, en revanche, que la distance A'O’ est nécessairement inférieure à la distance O'B'. Le 
temps de parcours de l’impulsion provenant de À est donc inférieur à celui de l’autre. Le contrôleur 
en déduira que le signal À s’est allumé après le signal B. Deux événements peuvent être vus comme 
simultanés ou non par des observateurs appartenant à des référentiels différents. Nous verrons bientôt 
qu’heureusement cet abandon de l’universalité de la simultanéité ne compromet pas la causalité. 

Nous avons vu émerger, en discutant ces deux expériences de pensée, deux des notions essentielles 
de la relativité: l'événement et l’intervalle. 


1.3 Evénements et intervalles 


1.3.1 Evénements 


Comme nous venons de le voir, le temps n’est plus universel et n’est plus séparable des cordonnées spa- 
tiales. Il faudra décrire les expériences en termes d'événements (très littéralement: il s’est passé quelque 
chose quelque part). Un événement, c’est par exemple l’allumage du signal À ou la réflexion de la 
lumière sur le miroir dans notre première expérience de pensée. Un événement existe indépendamment 
du choix du référentiel. On peut caractériser un événement, dans un référentiel donné, par l’observateur 
qui était sur place (le passager A’) et par l'instant, mesuré sur l'horloge de cet observateur, où 
l'événement s’est produit”. On pourra donc complètement caractériser l'événement par quatre nom- 
bres: les trois coordonnées spatiales de l’observateur (on se munit d’un repère convenable) et le temps. 
On décrira donc un événement par la donnée d’un référentiel et d’un quadruplet de nombres (ct, x, y, z) 
(nous développerons au chapitre suivant des notations tensorielles puissantes pour traiter ces quadru- 
plets). Bien sûr, les coordonnées spatio-temporelles du même événement dans un autre référentiel 
sont différentes et l’essentiel de notre tâche sera de donner la loi de transformation qui remplace et 
étend la transformation de Galilée. Il y a un parallèle très fort entre la différence entre événement 
(indépendant du référentiel) et coordonnées spatio-temporelles et celle qui existe entre un vecteur 
(indépendant du repère) et ses composantes sur une base donnée. 

Nous utiliserons souvent des représentations géométriques des événements. On peut en effet les 
représenter comme un point dans un espace à quatre dimensions. Cette représentation posant quelques 
problèmes techniques, on se cantonne souvent à une dimension d’espace. On représente alors un 
événement comme sur la figure 1.4. Pour des raisons de commodité, on porte sur l’axe vertical le 


produit ct. Les deux coordonnées dans cet espace ont ainsi la même dimensionf. 


5On supposera encore que tous les observateurs d’un même référentiel peuvent synchroniser leurs horloges. Il leur est 
interdit de se déplacer, mais on peut procéder de façon plus subtile. On peut, par exemple, déterminer par des moyens 
géométriques le milieu du segment AB joignant deux observateurs. On peut placer en ce point une source lumineuse 
qui s'allume à un certain instant. Si les observateurs À et B font le zéro de leurs horloges au moment où ils voient cette 
source s’allumer, ils auront établi leur synchronisme. 

Les professionnels de la relativité prennent souvent c = 1, ce qui simplifie énormément les écritures. A notre niveau, 
il est peut être imprudent de se priver d’un moyen de vérifier l’homogénéité de nos formules 
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Figure 1.4: Un événement, une ligne d’univers et un cône de lumière. Un événement est représenté par un point dans un 
espace x, ct. Une ligne d’univers est l’ensemble des événements correspondant aux positions successives d’une particule. 


Le cône de lumière d’un événement est constitué des lignes d’univers d’un signal lumineux passant par cet événement. 


On peut considérer le mouvement d’un point dans un référentiel comme une suite d'événements 
(la suite des observateurs devant lesquels la particule est passée associée aux instants correspondants). 
Une telle suite continue d'événements forme dans l’espace-temps une ligne, que nous nommerons “ligne 
d’univers” de la particule. Une telle ligne est représentée sur la figure 1.4. 


La ligne d’univers d’une particule qui se déplacerait à la vitesse de la lumière serait parallèle, dans 
notre représentation graphique, à la première ou à la deuxième bissectrice. Dans l’espace à quatre 
dimensions, l’ensemble des lignes d’univers partant d’un point et correspondant à un mouvement à c 
forme le “cône de lumière” de cet événement (voir aussi la figure 1.4). Les événements antérieurs à 
l'événement de référence forment le passé du cône de lumière, les autres le futur. Comme c est une 
vitesse limite, toutes les lignes d’univers passant par un événement donné doivent être à l’intérieur du 
cône de lumière. Deux événements ne pourront être reliés par un signal ou une relation causale, que 
s’ils sont dans le cône de lumière l’un de l’autre. Il est évident géométriquement que cette relation 
est symétrique: si À est dans le cône de lumière de B, alors B est dans le cône de lumière de A. 
En revanche, cette relation n’est pas transitive dans le cas général, comme on pourra s’en persuader 
aisément. Si C est dans le passé du cône de lumière de B, lui même dans le futur du cône de lumière 
de À, alors C n’est pas nécessairement dans le cône de lumière de A. En un mot, si A et C peuvent 
tous deux être la cause de B, il n’y a aucun lien de causalité a priori entre eux. En revanche, si C est 
dans le futur de B, il est nécessairement dans le cône de lumière de A: si A est la cause de B qui est 
lui même la cause de C, alors À peut être la cause de C. 


En ces termes, la version relativiste de la causalité apparaît très clairement. Si la physique clas- 
sique admet qu’un événement puisse être la cause d’un autre s’il lui est antérieur (admettant ainsi 
implicitement les actions instantanées à distance), la relativité exige que l’un des événements soit 
effectivement antérieur à l’autre (nous verrons dans le prochain paragraphe que la notion d’antériorité 
est indépendante du référentiel) mais aussi que les deux événement puissent être reliés par un signal. 
Nous allons maintenant pouvoir affiner beaucoup ces notions en introduisant l’intervalle. 
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1.3.2 Intervalle. Invariance de l'intervalle 


Considérons deux événements repérés, dans un référentiel donné, par (ct1,æ1,y1,21) et (ct2, £2, y2,22). 
Si ces deux événements sont sur le cône de lumière l’un de l’autre, ils peuvent être reliés par un signal 
lumineux se propageant à la vitesse c. On a donc dans ce cas: 


(ti — t2) = (x1 — 20) + (y1 — yo)? + (21 — 2) . (1.5) 
L'écriture de cette relation suggère d'introduire l'intervalle entre deux événements quelconques par: 


81,2 = Ê (ti — t2)? — (£1 — £2) — (y1 — y2)? — (21 — 22) . (1.6) 


Notons que le choix du signe + pour la composante temporelle de l’intervalle est tout à fait arbitraire. 
C’est cependant le plus répandu aujourd’hui. L’intervalle jouera le rôle d’une distance dans notre 
espace-temps à quatre dimensions. Sa seule propriété évidente à ce point est de s’annuler quand les 
deux événements sont sur le cône de lumière l’un de l’autre. Cette propriété est indépendante du 
référentiel: le fait pour deux événements d’être ou non reliés par un signal lumineux ne dépend pas 
de la description du mouvement. Un intervalle nul est donc un invariant dans un changement de 
référentiel. 

Nous établirons rigoureusement, à partir de la transformation de Lorentz, le fait que l'intervalle 
est indépendant du référentiel (est un “invariant relativiste”), même s’il n’est pas nul. Nous allons 
donner ici une indication de ce fait par un raisonnement qui, bien qu’il ne soit pas tout à fait rigoureux 
(il fait appel à des hypothèses supplémentaires implicites), établit de manière simple l’invariance de 
l'intervalle. Cette invariance nous permettra, dans les prochains paragraphes, de comprendre beaucoup 
de propriétés de la transformation de Lorentz avant même d’en écrire la forme explicite. 

Pour cela, considérons deux événements infiniment voisins. L’intervalle, lui aussi infinitésimal, 
entre ces événements s’écrit alors, dans un référentiel R: 


ds? = c?dt? — dx? — dy? — dz? . (1.7) 
Considérons les deux mêmes événements dans un autre référentiel R’. L’intervalle entre eux s'écrit 
ds? = cdt°? — dx"? — dy? — dz”? . (1.8) 


On doit pouvoir écrire l’intervalle dans le nouveau référentiel comme une fonction de celui dans R, 
fonction qui s’annule avec son argument (parce qu’un intervalle nul est conservé). On doit pouvoir 
développer cette fonction au premier ordre pour les intervalles infinitésimaux que nous manipulons et 
écrire: 

ds? = ads , (1.9) 
où a est une constante ne dépendant que de la vitesse relative u des deux référentiels. En fait l’isotropie 
de l’espace impose que a ne dépende que du module u de la vitesse u. Considérons maintenant 
un troisième référentiel R”, en mouvement à la vitesse v par rapport à R et w par rapport à R’. 
D’intervalle infinitésimal dans ce référentiel, ds”?, est tel que: 


ds"? = a(v)ds? = a(w)ds? = a(w)a(u)d3? . (1.10) 


La fonction a doit donc vérifier, pour tout triplet de vitesses relatives: 


a(w) = —— (1.11) 


ce qui est manifestement impossible (le module de la vitesse w dépend de l’orientation relative des 
deux autres et pas seulement de leur module), à moins que a = 1. On établit ainsi l’invariance 
des intervalles infinitésimaux. Tout intervalle pouvant être obtenu par une intégration d’intervalles 
infinitésimaux entre les deux événements, on établit ainsi l’invariance d’un intervalle arbitraire. 
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1.3.3 Conséquences de la conservation de l’intervalle. Causalité relativiste 


Si l'intervalle est un invariant relativiste, son signe l’est aussi, bien sûr. Nous distinguerons donc deux 
types d’intervalles: 


e Si 512 > 0, nous dirons que nous avons à faire à un intervalle du genre temps. La différence 
entre les temps des deux événements est supérieure à la distance (en unités convenables). Cela 
signifie que les deux événements peuvent être reliés par un signal se propageant moins vite que 
la lumière et qu’il peut donc y avoir un lien de causalité entre eux. En d’autres termes, aussi, 
les deux événements sont dans le cône de lumière l’un de l’autre. 


e Si sio < 0, la distance spatiale entre les deux événements est plus grande que la distance 
temporelle. Aucun signal ne peut donc avoir relié les deux événements, ce qui exclut tout lien 
de causalité (souvenons nous qu'aucune interaction ne peut se propager plus rapidement que la 
vitesse limite c). Nous dirons alors que nous avons à faire à un intervalle de genre “espace”. 


e Si s2, = 0, les deux événements peuvent avoir été reliés par un signal se propageant à la vitesse 
, 
de la lumière. Nous dirons alors que l’intervalle est du genre “lumière”. 


L’intervalle, ou du moins son signe, est très fortement relié à la notion de causalité. Il est donc 
essentiel que la nouvelle cinématique prédise l’invariance de l’intervalle, de manière que les liens de 
causalité entre événements soient indépendants des observateurs. La causalité classique, qui n’exigeait 
que des relations d’antériorité entre la cause est la conséquence exige maintenant deux conditions. 
D'abord, la cause et la conséquence doivent être dans le cône de lumière l’une de l’autre pour qu’une 
interaction ait eu le temps de se propager entre elles (la notion d’interaction instantanée à distance, 
commune en mécanique classique, disparaît en relativité). D’autre part, il faut encore que la cause 
précède la conséquence. Il est donc important que les notions de passé et de futur, à l’intérieur du 
cône de lumière, soient elles aussi des invariants relativistes. 

Pour établir cette invariance, considérons le cône de lumière de l'événement O et un événement M 
dans ce cône de lumière. Nous avons défini le futur de O comme l’ensemble des événements du cône 
de lumière de O de coordonnée temporelle supérieure à celle de O et nous supposerons M situé dans 
cette partie du cône de lumière. Si, dans un changement de référentiel, M passait dans le passé de 
O, cela impliquerait qu’il existe un changement de référentiel pour lequel M et O soient confondus. 
En effet, quel que soit le changement de référentiel, M reste dans le cône de lumière de O. Par 
continuité, passer du futur au passé de O impose qu’il existe un changement de référentiel amenant 
M et O à coïncidence. Mais ceci est contraire à l’invariance de l’intervalle, qui deviendrait nul dans ce 
changement de référentiel, alors qu’il ne l’est pas initialement. Nous en déduirons donc que les notions 
de passé et de futur sont des invariants relativistes, ce qui est d’une importance cruciale pour que la 
causalité garde un sens en relativité. Notons que cette invariance ne tient que pour deux événements 
situés dans le cône de lumière l’un de l’autre. Si ce n’est pas le cas et si les deux événements ne 
peuvent être reliés par aucun lien de causalité, l’ordre des temps peut être modifié par un changement 
de référentiel (c’est par exemple le cas dans l’expérience de pensée du train et des deux signaux que 
nous avons détaillée plus haut). Bien sûr, nous préciserons quantitativement ces notions dans le 
paragraphe suivant quand nous disposerons de la forme explicite de la transformation de Lorentz. 

Notons enfin, pour finir, que tous les intervalles pris sur la ligne d’univers d’une particule matérielle 
sont du genre temps. 


1.3.4 Temps propre 


Nous pouvons appliquer l’invariance de l'intervalle au problème des horloges en mouvement que nous 
avons déjà abordé dans notre première expérience de pensée. Nous y avons vu que la période d’une 
horloge (l'aller et retour d’un signal lumineux) n’était pas la même pour le contrôleur et le chef de gare. 
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Nous allons établir ce résultat de manière plus générale en utilisant l’invariance de l’intervalle. Là 
encore, toutes ces notions seront beaucoup plus précises quand nous disposerons de la forme explicite 
de la transformation de Lorentz. 

Considérons donc une particule, ou une horloge, en mouvement arbitraire par rapport à un 
référentiel R. Si ce mouvement est accéléré, il n’existe pas de référentiel galiléen dans lequel la 
particule soit au repos à tout instant. En revanche, on peut considérer à chaque instant le référentiel 
galiléen dont la vitesse v coïncide avec celle de la particule. Nous appellerons ce référentiel le référentiel 
tangent au mouvement R’. A l'instant considéré, on peut faire en sorte que la particule soit située à 
l’origine O’ de R’, avec une vitesse nulle. 

Considérons maintenant un intervalle de temps infinitésimal dt dans R. Pendant ce temps, la 
particule se déplace de dl = vdt. Les deux événements correspondant aux deux extrémités de ce 
mouvement infinitésimal sont donc séparés par un intervalle 


2 
ds? = dt? — dÊ = dt? h 7 Z) . (1.12) 
C 


Considérons maintenant les deux mêmes événements dans R’, le référentiel tangent. Dans ce référentiel, 
la vitesse de la particule est nulle. Son déplacement est donc nul au premier ordre en dt’. L’intervalle 
s’écrit donc aussi: 

ds? = dt: (1.13) 


Nous appellerons donc “temps propre” l'intervalle de temps s’écoulant dans R’ et nous le noterons 
dr = dt’. En rapprochant les deux expressions précédentes de l'intervalle, nous pouvons écrire 


dt = ydr (1.14) 
avec 
1 
EE (1.15) 
E 
jan 
a 


Nous retrouvons, de façon plus générale, que l’intervalle de temps mesuré dans le référentiel tangent ou 
le référentiel propre dans le cas d’un mouvement uniforme, est plus court que l’intervalle mesuré dans 
un autre référentiel. Le facteur de “dilatation” du temps, y, toujours supérieur à un, a l’expression 
que nous avions déjà trouvée au paragraphe précédent. Il est important de constater à ce point 
que dr est une quantité indépendante de l’observateur. Tout observateur, indépendamment de son 
état de mouvement par rapport à la particule, peut calculer un intervalle de temps propre à partir 
d’un intervalle de temps dans son référentiel, et en déduire, par intégration, le temps propre de la 
particule entre deux événements servant de référence. Le résultat obtenu sera le même pour tous 
les observateurs (si ils choisissent les mêmes événements de référence). Le temps propre est donc une 
propriété intrinsèque de la particule. Nous nommerons une telle quantité un 4-scalaire dans le chapitre 
suivant. 

Le raisonnement est fait ici pour des intervalles de temps infinitésimaux. On peut le généraliser à 
des intervalles arbitraires. A chaque instant, on peut définir un référentiel tangent pour la particule. 
On peut alors déterminer le “temps propre” de la particule, 7, en intégrant les intervalles de temps 
propre infinitésimaux. En intégrant aussi la relation entre temps propre et intervalle de temps dans 
R, on montrera que la durée propre est toujours inférieur à la durée mesurée dans R. 

Cette “dilatation des temps” a plusieurs conséquences pratiques mesurables qui ont apporté des 
confirmations éclatantes au principe de relativité. 

Considérons d’abord une particule instable de durée de vie (moyenne) T. Dans quel référentiel 
doit-on utiliser cette durée de vie? Elle n’a bien sûr de signification que dans le référentiel de la 
particule. C’est en effet une “horloge” interne à la particule qui déclenche sa désintégration. Dans le 
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référentiel du laboratoire, R, la durée de vie moyenne de la particule sera alors yT (nous supposerons, 
pour fixer les idées, que la particule est en mouvement rectiligne uniforme — y est donc une constante). 
Si la vitesse de la particule est très proche de celle de la lumière, la facteur de dilatation temporelle 
est très grand devant un et la durée de vie “vue” dans le référentiel du laboratoire est très grande 
par rapport à la durée de vie intrinsèque. C’est cet effet qui permet d’observer, dans les chambres à 
bulles ou à fils, les traces de particules à durée de vie très courte. 


La dilatation des temps se manifeste aussi à une échelle de vitesses plus accessible, à condition de 
disposer d’horloges de haute précision. Le réseau d’horloges atomiques qui fixent le temps international 
doit périodiquement être recalé. Pour cela, on transporte physiquement d’un site à l’autre des horloges 
portables de haute précision. A l’arrivée du voyage, il faut corriger l’horloge mobile de la dilatation 
relativiste des temps” que l’on pourra estimer numériquement à titre d’exercice. 


Citons également le célèbre “paradoxe des jumeaux”, dû à Langevin. De deux frère jumeaux, l’un 
reste sur terre et l’autre vole vers Proxima du centaure, à une distance de 4 années lumière, avec une 
vitesse constante, proche de celle de la lumière. A peine arrivé, le jumeau voyageur fait demi-tour 
et revient sur Terre à la même vitesse. A l’arrivée, le temps écoulé pour le jumeau terrestre est de 
huit ans (4 ans pour l’aller, autant pour le retour). En revanche, pour le voyageur, le temps écoulé 
n’est que de 8/7 ans, beaucoup plus court. Nous verrons, quand nous aurons explicité la forme de la 
transformation de Lorentz, que le jumeau voyageur voit l'étoile de destination s'approcher de lui à une 
vitesse proche de celle de la lumière. En revanche, elle est initialement beaucoup plus proche de lui que 
4 années-lumière. Le jumeau voyageur revient donc sur terre plus jeune que son frère! Le paradoxe 
apparent est qu'il semble y avoir une parfaite symétrie entre les deux jumeaux, incompatible avec 
cette différence d’âge: dans le référentiel du voyageur, le jumeau terrestre s’éloigne et se rapproche à 
grande vitesse. 


La “solution” de ce paradoxe apparent est que le référentiel du jumeau voyageur n’est pas un 
référentiel galiléen. Le temps propre tel que nous l’avons défini n’est pas le temps mesuré dans un 
référentiel donné. C’est une accumulation de temps infinitésimaux tous calculés dans des référentiels 
galiléens différents, les référentiels tangents au mouvement accéléré du mobile. Considérer la situation 
du point de vue du jumeau voyageur reviendrait à définir un temps pour un référentiel bien défini (celui 
du jumeau voyageur), accéléré. Ceci n’est pas possible dans le cadre de la relativité restreinte. En 
relativité générale, le temps est affecté par la gravitation ou de manière équivalente par l’accélération. 
On peut alors effectivement définir un temps pour le jumeau voyageur et retrouver rigoureusement la 
dissymétrie entre les deux jumeaux. 


Cette brève étude du paradoxe des jumeaux introduit naturellement la notion de célérité. Si 
on désire voyager loin, ce qui importe c’est le temps propre utilisé (celui dans lequel on vieillit) et la 
distance parcourue dans le référentiel immobile. On peut définir alors une vitesse, que nous nommerons 
célérité, en termes du temps estimé dans un référentiel et de l’espace estimé dans un autre. De façon 
évidente, la célérité est le produit de la vitesse ordinaire par le facteur y de dilatation du temps. Elle 
peut donc être très supérieure à la vitesse de la lumière, sans que la causalité relativiste ne soit violée 
puisque la célérité n’est pas une vitesse à proprement parler. 


Nous conclurons ce paragraphe par une remarque importante pour la dynamique. Si une horloge 
est immobile dans R, le temps propre mesuré entre deux événements coïncide avec celui du référentiel. 
En revanche, si elle est en mouvement, le temps propre entre les deux mêmes événements est toujours 
inférieur au temps du référentiel (et ce quelle que soit la forme ou la loi horaire de la trajectoire). 
On en déduit donc que l'intégrale du temps propre entre deux événements est maximale pour une 
horloge immobile, une propriété qui nous sera fort utile pour formuler un principe variationnel pour 
la dynamique relativiste. 


TI] faut aussi corriger un effet de “red shift” gravitationnel qui n’est descriptible que dans le cadre de la relativité 
générale. La fréquence de l’horloge est affectée en effet par le champ de pesanteur terrestre, légèrement diminué en vol. 
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1.4 Transformation de Lorentz 


Après cette approche très qualitative, qui nous a permis de comprendre certaines caractéristiques 
essentielles de la nouvelle cinématique; il nous reste à donner la forme explicite de la transformation 
de Lorentz, décrivant un changement de référentiel. Nous allons, en fait, oublier pour un temps tout 
ce que nous avons appris dans les paragraphes précédents et essayer de construire toutes les transfor- 
mations obéissant à un certain nombre de symétries fondamentales, telles que l’isotropie de l’espace 
ou l’invariance par translation dans le temps. Nous verrons qu’il n’y a en fait que quatre formes pos- 
sibles pour une telle transformation. Deux d’entre elles sont inacceptables parce qu’elles conduiraïent 
à abandonner le principe de causalité. Les deux dernières sont la transformation de Galilée, que 
nous rejetterons également car elle n’obéit pas au principe de relativité, et enfin la transformation de 
Lorentz. Au cours de cette recherche, nous verrons apparaître certaines propriétés essentielles de la 
transformation de Lorentz que nous discuterons dans le dernier paragraphe de cette section. 


1.4.1 Forme de la transformation de Lorentz 


Le choix d’axes pour les deux repères est, encore une fois, celui illustré par la figure 1.1. Nous 
cherchons donc une transformation £(u) permettant d'exprimer les coordonnées (ct',x’,y',z) d’un 
événement dans R’ en fonction de celles dans R, (ct,x,y,z). Rappelons que u est la projection 
algébrique de la vitesse de R’ par rapport à R sur l’axe du mouvement. Notons tout de suite qu'avec 
nos conventions l'événement (0,0, 0,0) dans R se transforme en l’événement origine (0,0, 0,0) dans R’. 
Nous obtiendrons avec ce choix d’axes la transformation de Lorentz spéciale. Une simple combinaison 
avec les rotations et symétries nous permettra ensuite d'obtenir le groupe de Lorentz complet, dont le 
groupe spécial est un sous-groupe, décrivant des changements de référentiels tout à fait quelconques. 

Nous imposerons d’abord à £ d’être une transformation linéaire, homogène. L’invariance de la 
physique dans une translation arbitraire de l’espace ou du temps impose cette linéarité. 

L'ensemble des transformations de Lorentz, paramétrées par la vitesse relative u, doit former un 
groupe. Considérons en effet trois référentiels: R, R’, en mouvement à la vitesse u par rapport à R, et 
R", en mouvement à la vitesse v par rapport à R’ et w par rapport à R (comme nous avons abandonné 
le cadre de la relativité galiléenne, w n’est pas égal à u + v). La transformation de R vers R’ peut 
s'écrire L(w) ou L(v)L(u) (ce produit étant à comprendre comme la composition de deux applications 
linéaires et donc étant lu de droite à gauche). Le produit de deux transformations de Lorentz définit 
donc une application de composition interne qui possède évidemment toutes les propriétés d’une loi de 
groupe. Il existe un élément neutre, l’identité, correspondant au passage d’un référentiel à lui-même 
et donc à la vitesse nulle. Chaque élément possède un inverse. Il doit en être ainsi, pour qu’à tout 
événement dans R corresponde un seul jeu de coordonnées dans R’. La transformation inverse est 
celle qui donne les coordonnées dans R en fonction de celles dans R’. La vitesse de l’origine O dans 
R! doit bien sûr être —u. Si la vitesse de O par rapport à O’ n’était pas opposée à la vitesse de O’ 
par rapport à O, nous aurions certainement brisé le principe de relativité. La transformation inverse 
de £(u) doit donc être la transformation de Lorentz correspondant à la vitesse —u, qui est celle de R 
mesurée dans R’: on doit avoir L(u) ! = L(—u). 

Il n’est pas évident a priori que ce groupe, que nous appellerons “groupe de Lorentz”, soit com- 
mutatif. En fait, il est possible de montrer que tout groupe paramétré par un paramètre unique, 
à condition que ce paramétrage soit “suffisamment” continu et dérivable, est isomorphe au groupe 
additif des réels®. Il en résulte immédiatement que tous ces groupes sont abéliens (ou commutatifs). 
Notons que cet isomorphisme indique qu’on peut, par un changement de variable adéquat, paramétrer 


8Nous ne démontrerons pas ici cette propriété. On en trouvera une démonstration très élémentaire dans J.M. Lévy- 
Leblond et al., Am. Journal of Physics, 47, 1045 (1980). On peut donner des exemples simples de cette propriété. Le 
groupe multiplicatif des réels (paramétré par la valeur de l’élément) admet une représentation additive évidente qui n’est 
autre que le logarithme Népérien. Le groupe des rotations autour d’un point, paramétré par l’angle de rotation, est 
directement paramétré sous forme additive. 
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le groupe par un paramètre additif, déterminé de façon univoque à un facteur près (à un choix d’unités 
près). On pourrait ainsi trouver un paramètre @(u) tel que la composition de deux transformations 
de Lorentz s’écrive L(p(u) + p(v)) = L(b(v))£L(p(u)). Nous verrons par la suite que ce paramétrage 
additif a une signification physique très claire. 

Penchons nous d’abord sur les lois de transformation des coordonnées y et z. Comme les axes Ox 
et O'x' coïncident à tout instant, le fait que y = z = 0 implique que y’ = z/ = 0 pour toutes les valeurs 
de x et t. Ces deux dernières coordonnées ne peuvent donc intervenir dans les lois de transformation 
de y et z, qui se résument donc à : 


d 


y = ay+bz (1.16) 
z = by+a'z. (1.17) 

Les axes Oy et O'y doivent coïncider à t = 0. Si b et b' n'étaient pas nuls, l’axe O'y’ correspondrait 
à des valeurs simultanément non nulles de y et z et ne pourrait donc coïncider avec Oy. La transfor- 
mation se réduit donc à un simple facteur d’échelle sur y et z. L’isotropie de l’espace impose de plus 
que les facteurs affectant y et z soient identiques. On a donc simplement: 


y! = ay z = az. (1.18) 


Montrons maintenant que ce facteur a vaut nécessairement 1. Nous avons montré effectivement que 
£L(u)-! = £(-u). La transformation inverse est donc décrite par le facteur a(—u), mais aussi par le 
facteur 1/a(u). L’isotropie de l’espace impose de plus que le facteur a ne dépende pas de l’orientation 
de la vitesse par rapport à laxe Oy. On a donc a = 1/a et a = +1. Si le choix des orientations des 
axes dans les deux référentiels est cohérent, on a donc finalement a = 1. Nous avons montré que la 
transformation de Lorentz laisse invariantes les coordonnées perpendiculaires à la vitesse relative. 

Intéressons nous maintenant à la transformation de x et ct. La transformation la plus générale 
ferait intervenir les coordonnées y et z. L’invariance par translation perpendiculaire à laxe des x 
impose évidemment que y et z n’interviennent pas dans la loi de transformation de x. De même, à 
x et ct donnés, le temps ct’ ne doit pas dépendre de y ou z. Finalement, on peut exprimer la loi de 
transformation la plus générale par une relation matricielle 2 x 2: 


! 
(a) £ er a w l (1.19) 
hn e(u) flu) z 

On peut préciser considérablement la forme de cette transformation par un simple argument de 
symétrie. Considérons en effet dans le référentiel R’ un axe O'X’ confondu avec, mais d’orientation 
contraire à, O'z’. En un mot, X’ = —x'. Considérons de même l’axe OX opposé avec laxe Ox, 
avec X = —x. On peut considérer la transformation donnant X et ct en fonction de X’ et ct’. Elle 
correspond au même changement de référentiel que celui que nous étudions. En effet, dans les deux 
cas, la vitesse du nouveau référentiel selon l’axe des x ou X est u. La vitesse de O est en effet —u sur 

O'x' et donc u sur O'X’. On en déduit que: 


(JPA (120 
Ce) a21) 


Mais cette dernière relation est aussi la transformée inverse de la transformation cherchée: 


(D-r DC) va 


qu'on peut mettre sous la forme: 
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De la comparaison de ces deux formules, on tire immédiatement que le déterminant de la transforma- 
tion doit être égal à un: 


af —be=1 (1.23) 
et que 
==) (1.24) 
(nous changeons un peu les notations pour évoluer vers la forme standard de la transformation de 
Lorentz). 


Nous pouvons préciser encore la forme de la transformation en utilisant le caractère abélien du 
groupe de Lorentz spécial. En écrivant simplement que L(w) = L(u)L(v) = L(v)L(u), on trouve que: 


vw) = y(u)y(v) +e(u)b(v) 
= q(v)y(u) +e(v)b(u) , (1.25) 


ce qui ne peut être vérifié pour deux vitesses arbitraires que si e(u)/b(u) est une constante, à moins 
qu’une de ces fonctions ne s’annule identiquement. Si ce rapport est une constante, un choix convenable 
d'unités d’espace et de temps permet d'amener sa valeur à +1. Nous aurons donc à distinguer 4 cas: 


e e(u) = —b(u). La matrice est donc antisymétrique et ses deux coefficients vérifient +? + b? = 1. 
On peut donc poser y = cos 0 et b = sin. La matrice de transformation s’écrit donc: 


( cos 0 an i (1.26) 


—sinð cos 


C’est une simple rotation autour de l’origine dans l’espace-temps. La représentation additive de 
ce groupe est l’angle de rotation 8. 


e b(u) — 0. La valeur du déterminant impose alors y = 1 et la matrice de la transformation s'écrit: 


ce o) (1.27) 


Ecrire ensuite que le mouvement de O’ s’effectue à la vitesse u, c’est à dire que x = 0 implique 
x! = —ut', fixe e(u) = —B = —u/c. Ce groupe est simplement celui de Galilée dont le paramètre 
additif est la vitesse u ou la vitesse réduite 6 = u/c. 


e e(u)=0. Là encore, on doit avoir y = 1 et la matrice s’écrit: 


k 0 l (1.28) 


Ce groupe, qui diffère du groupe de Galilée en ce qu’il transforme le temps et non l’espace, est 
le groupe de Caroll. Il est tout naturel de l’éliminer a priori. 


e e(u) = b(u). On a alors +? — b? = 1 et on peut poser: y = cosh (u) et b(u) = — sinh ọ(u) (la 
raison de ce choix de signe apparaîtra clairement plus tard). La matrice de transformation: 


coshøọ — sinh ġ 
Ee cosh ġ ) (120) 


est alors simplement celle d’une rotation hyperbolique (rotation autour de l’origine d’un angle 
imaginaire pur). La représentation additive de ce groupe (que nous appellerons “groupe de 
Lorentz”, en faisant fi du suspense) est simplement l’angle de rotation ġ, dont nous donnerons 
dans un moment l'interprétation physique. 
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Nous n'avons utilisé jusque là que des arguments très généraux de symétrie et de réciprocité. Il 
est déjà très remarquable que nous n’ayons plus le choix qu'entre quatre groupes, chacun paramétré 
par un seul paramètre additif. Pour choisir la forme correcte, nous pouvons employer deux arguments 
supplémentaires”. 

Si nous voulons que la causalité soit une notion indépendante du référentiel, il faut au moins 
exiger de la transformation qu’elle préserve l’ordre temporel des événements (au moins pour certains 
couples d'événements, ceux qui sont dans le cône de lumière l’un de l’autre). Il doit donc exister des 
classes d'événements pour lesquelles le signe de t ne doit changer dans aucune transformation. Il est 
facile de voir que le groupe des rotations spatio-temporelles et le groupe de Caroll contiennent des 
transformations changeant le signe de t pour tout événement. Ils sont donc exclus par de simples 
exigences de causalité. 

Il ne nous reste que le groupe de Galilée et le groupe de Lorentz. Le premier, qui conduit à la 
composition des vitesses au sens ordinaire, n’est pas acceptable. La transformation cherchée doit 
appartenir donc au groupe de Lorentz (à celui des rotations hyperboliques). Il ne nous reste plus 
qu’à préciser la valeur du paramètre additif p{u), que nous appellerons “rapidité”. Il suffit pour cela 
d'écrire que O est animé, dans R’, d’un mouvement uniforme à la vitesse —u (x! = —ut'). On déduit 
immédiatement de la transformation que 


x' = —sinh ġ(u)ct, ct! = cosh ġ(u)ct (1.30) 
et 
tanh ġ(u) = = E (1.31) 
soit encore i 
sinh (u) = %8 , y = cosh ġ(u) = ——— . (1.32) 


y1 -— 8? 
Notons que le facteur y peut prendre des valeurs arbitrairement grandes. La rapidité peut donc aussi 
être arbitrairement grande. Si la vitesse u est limitée par la vitesse de la lumière, il n’en est pas de 
même pour le paramètre “naturel” du groupe de Lorentz. 
Avec ces valeurs, nous avons complètement déterminé la transformation de Lorentz, qui peut 


s'écrire: j 3 j 

c y =y c 

I 7 I | Vs 
la transformation inverse étant évidemment donnée par 
ct y yP) [e 

E PE | SE 
(il suffit de changer le signe de la vitesse relative). En termes de coordonnées et de temps, on peut 
aussi écrire la transformation directe sous la forme: 


x! = y(x- ut) (1.35) 
= (1-5) (1.36) 


et la transformation inverse sous la forme: 
(x! + ut) (1.37) 
1 
B y, UT 
SA ce point, imposer la constance de la vitesse de la lumière ou l’invariance de l'intervalle suffirait à choisir le dernier 


groupe. Nous allons suivre une démarche un plus détaillée pour montrer que la sélection peut aller encore plus loin sans 
le postulat de relativité. 


T 
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A toutes les relations précédentes, il convient bien sûr d’ajouter l’invariance des coordonnées trans- 
verses y et z. Notons immédiatement que, si on ne retient dans la transformation de Lorentz que les 
termes du premier ordre en u/c, on retrouve la transformation de Galilée. La cinématique classique 
apparaît donc bien comme une limite de la cinématique relativiste pour des vitesses d'entraînement 
faibles devant celle de la lumière. 

Notons que nous avons fait, dans tout ce paragraphe, un choix d’axes bien particulier. Comme 
il nous a conduit à une forme univoque de la transformation de Lorentz, nous n’avons pas restreint 
la généralité. On peut avoir cependant à composer des transformations de Lorentz correspondant à 
des directions de vitesses différentes. La transformation de Lorentz s’écrira alors £(u), où u est le 
vecteur vitesse de R’ par rapport à R, de direction arbitraire. Pour écrire ce genre de changement 
de référentiel, il convient de composer la transformation que nous venons d'écrire avec les rotations 
arbitraires d’espace, avec les réflexions d’espace et même, éventuellement, avec les réflexions du temps. 
On obtient ainsi le “groupe de Lorentz complet”, qui décrit tous les changements de référentiels. On 
distingue parfois, à l’intérieur du groupe complet , plusieurs sous-groupes: 


e Le groupe de Lorentz “propre” comprenant la transformation de Lorentz combinée avec les 
rotations spatiales. Sauf cas spécial, il suffit à décrire un changement de référentiel avec une 
direction de vitesse arbitraire. Le déterminant de la matrice correspondante est 1. 


e Le groupe de Lorentz “orthochrome” contient le groupe de Lorentz combiné éventuellement avec 
des réflexions d’espace (nous avions exclu explicitement ces transformations dans notre discussion 
en imposant aux directions des axes d’être consistantes). Le déterminant de la matrice peut alors 
être +1. 


1.5 Propriétés de la transformation de Lorentz 


Avant d'appliquer la transformation de Lorentz à des situations physiques, nous allons nous pencher 
plus en détails sur certaines de ses propriétés. La première, qui découle directement de l’expression 
de la transformation comme une rotation hyperbolique, est que la transformation de Lorentz conserve 
l'intervalle. Nous aurions en fait pu prendre cette hypothèse comme point de départ et construire à 
partir de là la transformation. 

Un point essentiel de ce paragraphe sera de comprendre qu’il y a trois quantités fondamentales 
différentes décrivant la vitesse d’un référentiel par rapport à un autre, correspondant à trois situations 
expérimentales différentes pour déterminer cette vitesse. 


1.5.1 Composition des transformations 


Revenons à la situation déjà évoquée de trois référentiels en mouvement relatif. La loi de composition 
des rapidités nous permet d’écrire de manière évidente: 


p(w) = pu) + pv) . (1:39) 


Nous pouvons en tirer facilement la loi de composition des vitesses relativistes, sous une forme simplifiée 
correspondant à des vitesses qui sont toutes colinéaires (nous généraliserons au paragraphe suivant), 
en écrivant w en fonction de u et v. Il suffit pour cela de prendre le cosh et le sinh de l’équation 
précédente. On obtient alors: 


sinh@(w) = B(w)y(w) = 7(u)y(v)(8(u) + H(v)) (1:40) 
cosh g(w) = ylw) = y{u)y(v)(1+8(u)A(v)) , (1:41) 

d’où on tire immédiatement: 
Buy = LO + 80) h 


BETOON 
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ou encore 
u+v 


SE  — 1.43 
1+uv/c2 ’ (1:43) 


w 

Cette loi remplace la simple addition des vitesses de la relativité galiléenne. Notons là encore qu’on 
retrouve la loi galiléenne d’addition des vitesse pour la composition de vitesses toutes deux petites 
devant la vitesse de la lumière. Remarquons également que cette loi prédit correctement l’invariance 
de la vitesse de la lumière: si B(u) = 1 ou si B(v) = 1, on trouve immédiatement (w) = 1. Cela 
montre aussi qu’on ne peut dépasser la vitesse de la lumière en courant dans le couloir d’un train se 
déplaçant à une vitesse proche de c. Encore une fois, si accumulation de vitesses ne peut conduire 
à une vitesse supérieure à celle de la lumière, les rapidités s'accumulent sans limite. Il est d’ailleurs 
fructueux à ce point de comparer ces notions de vitesses et de rapidité. 


1.5.2 Vitesse, célérité et rapidité 


Nous sommes maintenant en possession de trois quantités différentes décrivant le mouvement d’un 
référentiel par rapport à un autre. Il n’est que temps d’examiner les différences entre ces quantités et 
de préciser leur sens physique. 

La première définition de la vitesse relative de R’ (le référentiel du contrôleur, pour reprendre 
le vocabulaire ferroviaire) par rapport à R (le chef de gare) est la vitesse u, vitesse de l’origine O’ 
dans R. Imaginons, pour bien insister sur le sens physique de ces quantités, que le contrôleur désire 
déterminer sa vitesse. La première méthode est de repérer, sur les horloges de deux gares successives, 
ses temps de passage. La liste des tarifs, imprimée dans R, lui donnant la distance (mesurée dans R) 
entre ces gares, il en déduira sa vitesse. Cette vitesse, mesurée dans l’espace de R avec le temps de 
R, ou dans l’espace de R’ avec le temps de R’, est bien entendu la vitesse u. 

L'autre définition que nous avons déjà rencontrée est celle de la célérité. Rappelons que c’est 
la définition qui intéresse le voyageur interstellaire, puisqu'elle mesure la distance parcourue dans le 
référentiel fixe par unité de temps du mobile. Nous avons vu que la célérité s’exprimait par yu ou 
8 = sinh 4 en unités réduites. Cette vitesse est celle que déterminerait le contrôleur en mesurant la 
durée qui s’écoule entre les deux gares avec sa propre montre. Notons enfin que célérité et vitesse sont 
identiques en relativité galiléenne, en raison de l’universalité du temps. 

Nous sommes maintenant en possession d’une troisième “définition” de la vitesse en termes de la 
rapidité. Si nous savons déjà que son intérêt réside dans son caractère additif, à quelle expérience 
correspondrait-elle? 

Le contrôleur dispose d’une troisième méthode pour déterminer sa vitesse, même si les vitres sont 
occultées. Supposons qu’il soit initialement immobile dans la première gare mais qu’il dispose d’un 
accéléromètre (un simple fil à plomb lui suffirait). Cet accéléromètre mesure la variation de la vitesse 
du train par unité de temps du train (ce temps est un temps propre). En intégrant les indications de 
l’accéléromètre sur toute la phase d’accélération, le contrôleur pourra déterminer sa vitesse finale. 

On peut traiter ce cas très simple de cinématique d’un mouvement accéléré sans recourir à la rela- 
tivité générale. Le référentiel du train n’est plus galiléen. Nous considérerons en revanche comme 
référentiel R’ le référentiel tangent au mouvement pour une valeur du temps propre 7 (obtenu, 
rappelons-le, par intégration des temps propres dans les référentiels tangents successifs). A un in- 
stant donné, la vitesse de ce référentiel par rapport à R est v, qui passe de 0 à u pendant la phase 
d'accélération. Pendant un intervalle de temps infinitésimal dr, la vitesse du train dans le référentiel 
tangent passe de 0 à dv’. L’accélération mesurée dans le train (ou plutôt dans le référentiel tangent) 
vaut donc a = dv'/dr. Pendant l'intervalle de temps correspondant, la vitesse dans R passe de v à 
v + dv. En utilisant la loi de composition des vitesses du paragraphe précédent, nous pouvons écrire 
l’accroissement de vitesse dv’ dans R’ en fonction de la nouvelle vitesse dans R (v+dv) et de la vitesse 
v de R’ par rapport à R: 

v + dv —v 


1 
ce 1—v(v+dv)/c2 ? 


(1.44) 
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A 
ct 
ct' À 


Figure 1.5: La transformation de Lorentz interprétée géométriquement comme une rotation hyperbolique dans l’espace 


temps. Ses directions propres coïncident avec le cône de lumière de l’origine. 


soit encore 


dv 
dv = —— . 1.45 
Le [2 (45) 
La vitesse finale mesurée par cette méthode sera donc: 
dv u 
foar — Î 1 w2/e = C arctanh- $ (1.46) 


Elle coïncide donc avec la définition de la rapidité, qui prend ainsi un sens physique très fort. Cette 
définition en termes d’accélération accumulée nous fait comprendre pourquoi la rapidité n’est pas 
bornée. On peut en effet avoir un mouvement indéfiniment accéléré en relativité restreinte (nous 
écrirons ce mouvement pour décrire celui de particules chargées soumises à une force constante dans 
un champ électrique uniforme). La vitesse tend asymptotiquement vers c, l'accélération habituelle 
(mesurée dans le référentiel fixe) tend vers zéro mais l’accélération mesurée comme ci-dessus demeure 
constante et la rapidité s’accumule. Notons pour finir qu’en relativité galiléenne la rapidité et la vitesse 
coïncident aussi. 


1.5.3 Géométrie de la transformation de Lorentz 


Penchons nous maintenant sur l'interprétation géométrique de la transformation de Lorentz dans 
l’espace temps. Si une rotation ordinaire autour de l’origine est bien connue, il n’en est pas né- 
cessairement de même pour une rotation hyperbolique. La figure 1.5 illustre la géométrie de cette 
transformation. Au contraire d’une rotation, elle ne conserve pas l’angle entre les axes. Pour u > 0, les 
deux nouveaux axes sont à l’intérieur du premier quadrant. On a illustré sur la figure 1.5 un événement 
(par un point), ainsi que ses nouvelles et ses anciennes coordonnées, obtenues par projection sur les 
axes correspondants. 

On peut préciser encore notre interprétation de cette transformation, en considérant ses valeurs 
propres et vecteurs propres. L’équation caractéristique s’écrit À? —2y\+1 = 0. Elle admet donc deux 
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valeurs propres réelles inverses l’une de l’autre: 


ho eh (1.47) 


1-8 VIT 


Les vecteurs propres s’obtiennent sans difficulté. Ils correspondent à x = ct (pour la valeur propre 
supérieure à un) et x = —ct. Les directions propres de la transformation de Lorentz ne sont autres 
que celles du cône de lumière du point O (directions que nous avons également représentées sur la 
figure 1.5). 


1.6 Conséquences de la transformation de Lorentz 


1.6.1 Retour sur nos expériences de pensée 


Nous reviendrons brièvement, dans ce paragraphe, sur les deux expériences de pensée que nous avons 
discutées au début de ce chapitre. Nous allons les décrire en termes d'événements et utiliser la 
transformation de Lorentz complète pour exprimer les changements de référentiels. Nous pourrons 
en particulier préciser la valeur de la non-simultanéité dans la seconde expérience, ce que nous ne 
pouvions faire sans la transformation. 

Pour la première expérience, il nous faut distinguer trois événements: le départ de l’impulsion de 
O' (x1 = y, = ti = 0) (nous n’écrirons jamais la coordonnée z qui ne joue aucun rôle); la réflexion sur 
le miroir de coordonnées x, = 0, y5 = L,t, = L/c, et le retour de l'impulsion en O’ de coordonnées 
xh = y4 = 0,t} = 2L/c. La transformation de Lorentz donne les positions de ces trois événements 
dans R: 


æ1 = Yi = ti =0 (1.48) 
z2 = "yuL/c, y2 = L, t2 = yL/c (1.49) 
gs = 2yuL/c, y3 =0, t3 = 2yL/c, (1.50) 


qui nous redonne immédiatement la dilatation des temps. 
Pour la seconde expérience, nous n’avons à considérer que l’allumage des feux. La réception des 
signaux coïncide en effet avec l'événement origine. On a , dans R: 


zA = —L ta = —L/c 1.51) 
xp = L tg = —-L/c. (1.52) 


On en déduit immédiatement, dans R’, 


za = —yL(1 — 6) ta = —q4(1 — B)L/c (1.53) 
zp = YL(1+ 8) tg = -1 + B)L/c, (1.54) 


ce qui montre clairement que les instants d'allumage dans R’ différent de 2yBL/c. 


1.6.2 Intervalles et simultanéité 


Nous allons établir deux propriétés qui nous permettront de revenir sur la notion de causalité rela- 
tiviste. 

Si deux événements sont séparés par un intervalle de genre temps, il existe un référentiel dans 
lequel ils se produisent au même endroit. 

Considérons donc deux événements dans un référentiel quelconque R. On peut toujours choisir 
l’un comme origine et faire en sorte, par un choix d’axes, que l’autre se produise sur laxe Ox. Leurs 
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coordonnées sont alors (0,0) et (ct,x) . On a |ct| > |x| puisque leur intervalle est du genre temps. 
Prenons un nouveau référentiel R’. Dans ce référentiel, les deux événements se produisent au même 
endroit si x’ = y(x — ut) = 0. Il suffit pour cela que u = x/t, qui est bien inférieur à c. Notons que 
le carré de l'intervalle est alors simplement le carré du temps propre, du temps qui s’écoule entre les 
deux événements dans le référentiel où ils se produisent au même point. 

Si les deux événements se produisent au même endroit dans ce référentiel, il peuvent être liés par 
un lien de causalité. Une autre manière de voir cette propriété est d'imaginer un signal se propageant 
d’un événement à l’autre. Comme l'intervalle est du genre temps, ce signal se propage moins vite que 
la lumière. On peut donc lui associer un référentiel qui n’est, d’ailleurs, autre que R’. On peut noter 
enfin que l'instant # auquel se produit le second événement dans R’ est positif si et seulement si t 
est positif. Si deux événements se produisent au même point dans un référentiel, l’ordre temporel des 
événements n’est modifié par aucune transformation de Lorentz. En un mot, la notion de causalité 
est complètement préservée par les changements de référentiels. 

Si deux événements sont séparés par un intervalle du genre espace, il existe un référentiel où ils 
se produisent simultanément. 

Nous emploierons les mêmes notations. Cette fois, |ct| < |x| . Dans R’ les deux événements se 
produisent au même instant si # = y(t — ux/c?) = 0, c'est à dire si u = c?t/x, qui est, là encore, plus 
petit que c. Le fait que les événements se produisent au même instant à des endroits différents prouve 
qu'ils ne peuvent être liés par un lien de causalité, la relativité n’admettant pas d’action instantanée 
à distance. On peut voir rapidement que, dans ce cas, le signe de t dépend de la transformation. 
Comme il n’y a pas de relation de causalité relativiste entre ces événements, leur ordre temporel peut 
dépendre du référentiel. Notons enfin que le carré de l’intervalle est dans ce cas l’opposé de la distance 
entre les deux événements dans le référentiel où ils se produisent au même instant. Il s’agit d’une 
longueur propre, telle que nous la définirons plus précisément dans un instant. 


1.6.3 Loi de composition des vitesses 


Nous généraliserons dans ce paragraphe la loi de composition des transformations de Lorentz qui nous a 
déjà permis, au paragraphe précédent de traiter le cas de deux vitesses colinéaires. Nous considérerons 
ici une situation physique légèrement différente. Un mobile est en mouvement avec une vitesse v dans 
le référentiel R’, entraîné à une vitesse u (selon Ox) par rapport au référentiel R. En écrivant les 
accroissements infinitésimaux dx’, dy’, dz’ et dt! dans R’ et en utilisant la transformation de Lorentz, 
on en déduit les accroissements correspondants dans R: 


dr = (dx! +udt') (1.55) 
dt = (dt +udx'/c) (1.56) 
dy = dy (1.57) 
dz = dz. (1.58) 


On peut alors calculer sans difficultés les vitesses dans R. On obtient: 


f 
Vz HU 
= + 1.59 
a 1+ uv! /c? (1:9) 
f 
v 
vy = =, (1.60) 


(1 + uv! /c2) 


la transformation inverse s’obtenant trivialement en changeant le signe de u dans les expressions 
précédentes. On vérifiera, à titre d'exercice, que la vitesse de la lumière est bien invariante dans cette 
transformation. 
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Aberration des étoiles 


Nous étudierons ici une application immédiate de la loi de composition des vitesses. La lumière 
provenant d’une étoile apparaît déviée par la composition de sa vitesse avec celle du référentiel terrestre 
par rapport au système solaire. La position apparente d’une étoile dans le ciel dépend donc dans une 
petite mesure de la position de la terre sur son orbite (chaque étoile semble décrire une petite ellipse 
annuelle autour de sa position moyenne). Pour simplifier la géométrie, nous considérerons le référentiel 
R comme celui lié au système solaire. La lumière de létoile arrive parallèlement à l’axe Oy. La vitesse 
de cette lumière est donc vy = —c. 

Le référentiel R’ est celui de la terre, entraîné à la vitesse u selon Ox. De la loi de composition des 
vitesses, on déduit les composantes de la vitesse de la lumière de cette étoile dans le référentiel R’: 


v, = —u (1.61) 
RES C 
iyoo (1.62) 


On “voit” donc dans R’ la lumière de l'étoile provenir d’une direction inclinée par rapport à laxe 
O'y', d’un angle 0 = arctan 8y. L'application de la cinématique galiléenne prévoit aussi une déviation 
apparente mais elle n’est, comme on le vérifiera aisément, que 0 = arctan 6. La différence entre ces 
deux quantités est mesurable et son observation fut une belle confirmation de la relativité restreinte. 

Dans le même genre de situation, nous aurions pu nous intéresser aussi à la fréquence de la lumière 
reçue. Nous l'aurions trouvée modifiée, d’une quantité différente de l'effet Doppler classique (il existe 
en particulier un effet Doppler du second ordre pour une vitesse d'entraînement perpendiculaire à la 
propagation). Nous pourrons traiter ce problème plus efficacement quand nous aurons introduit, au 
chapitre suivant, les notations tensorielles. 


1.6.4 Contraction des longueurs 


Dans cette nouvelle conséquence immédiate de la transformation de Lorentz, nous allons retrouver 
l'hypothèse heuristique que Lorentz avait introduite pour expliquer le résultat négatif de expérience 
de Michelson. 

Le problème que nous abordons ici est celui de la définition de la longueur d’un objet en mouvement. 
Pour fixer les idées, nous considérons une règle rigide, de longueur L/, immobile dans le référentiel 
mobile R’, confondue avec l’axe O'z’ (et ayant une extrémité en O’). Comment des observateurs de 
R peuvent-ils déterminer la longueur de cette règle? Il y a deux stratégies. 

L’observateur O peut d’abord déterminer la vitesse u de la règle, par exemple par vélocimétrie 
Doppler. Il peut alors mesurer la durée At pendant laquelle la règle défile devant lui. Il en déduira 
alors sa longueur L = uAt. On peut aussi prendre une photographie instantanée de la règle. En fait, 
on peut repérer, à un instant t donné, les observateurs de R qui sont en face des extrémités de la règle 
et mesurer leur distance. A titre d'exercice, nous allons examiner ces deux procédures et montrer 
qu’elles fournissent la même longueur. 

Dans la première méthode, les deux événements À et B à considérer sont le passage en O des deux 
extrémités de la règle. Les coordonnées de ces deux événements dans R’ sont 


ci =ty=0 (1.63) 
= LL te =L'/u (1.64) 


(par convention, l’extrémité O’ de la règle passe d’abord devant O). Leurs coordonnées dans R sont 
alors: 


zA =tA=0 (1.65) 


L 2 L! 
de =0 mn (1-5). (1.66) 
u 
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On retrouve évidemment que ces deux événements se produisent en O. La durée de passage At est 
égale à tg, et la longueur L de la règle ainsi mesurée est: 


L' 


ee (1.67) 


Pour la deuxième méthode, on considère les deux événements À et B représentant les extrémités de 
la règle à un instant donné dans R. Pour simplifier, nous prendrons l’instant origine. Les coordonnées 
dans R de ces événements sont donc: 


zA =tAaA=0 (1.68) 
xp = —L tB =0. (1.69) 
Leurs coordonnées dans R’ sont donc: 
za = ta =0 (1.70) 
£g = -yL th = yuL/e . (1.71) 
Comme on doit aussi avoir x = —L/, on en déduit encore 
L' 
L= —. (1.72) 
7 


Les deux procédures conduisent donc, heureusement, à la même longueur. Rappelons pour finir que 
la longueur de la règle n’apparaît pas modifiée quand elle est perpendiculaire à Ox. 

Une règle en mouvement dans la direction de sa longueur apparaît donc plus courte que dans un 
référentiel où elle est au repos. Cette contraction des longueurs est, dans la première méthode, une 
conséquence directe de la dilatation des temps. Dans la deuxième approche, elle est une conséquence 
de la non invariance de la simultanéité. Si on regarde les extrémités à un même instant dans R, on 
les voit à deux instants différents dans R’. Qui dit différence sur les temps, dit légère différence sur 
les positions. 

Une application immédiate de la contraction des longueurs est la définition de la célérité. Reprenons 
le jumeau voyageur du paradoxe de Langevin. Dans le référentiel fixe, il met 4 ans à atteindre l’étoile 
la plus proche, à une vitesse proche de celle de la lumière. Dans son référentiel propre, il ne met 
que 4/7 ans. Cependant, la vitesse de l'étoile par rapport à lui est égale (en module) à sa vitesse 
par rapport à la terre et donc proche de c. En revanche, la distance de l’étoile n’est plus que de 4/y 
années lumière. On pourra, à titre d’exercice, écrire complètement le paradoxe des jumeaux en termes 
d'événements. 


Un “Paradoxe” résolu 


Pour illustrer encore cette notion de contraction des longueurs, considérons un nouveau problème de 
trains. Un train de longueur L (référentiel propre R’) entre dans un tunnel (immobile) de longueur 
L exactement égale. R est le référentiel du tunnel. Train et tunnel sont alignés avec Ox et O'x'. A 
t = t = 0, l'arrière du train passe juste dans l’entrée du tunnel, située en O (ou O’). Que voient 
le contrôleur et le chef de gare (en mission d’inspection dans le tunnel)? Pour le chef de gare, la 
longueur du train en mouvement est inférieure à celle du tunnel et la locomotive sort du tunnel un 
peu après que le dernier wagon n’y ait pénétré. Pour le contrôleur, en revanche, c’est le tunnel qui est 
un peu plus court que le train et la locomotive sort du tunnel avant que le dernier wagon n’y entre. 
La solution de ce paradoxe apparent est bien sûr dans la non universalité de la simultanéité. Avant et 
après ne sont pas des absolus pour des points situés à des endroits différents (et qui ne sont pas dans 
le cône de lumière l’un de l’autre). 
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Pour nous en convaincre, nous écrirons, dans les deux référentiels, les coordonnées des deux 
événements importants. L'un représente l’entrée du dernier wagon dans le tunnel et coïncide avec 
l’événement origine dans les deux référentiels. L’autre événement est la sortie de la locomotive, dont 
les coordonnées dans R sont: 


BEL t==(1-1) , (1.73) 
u y 
On peut obtenir simplement t2 en disant que la longueur du train dans R est L/y. A l’instant 0, la 
locomotive est donc à une distance L(1 — 1/y) de la sortie et elle parcourt cette distance à la vitesse 
u. La sortie de la locomotive dans R se produit donc bien après l’entrée du dernier wagon. On 
peut vérifier, par un calcul élémentaire, que le carré de l’intervalle entre les événements 1 et 2 est 
c?(1 — y)/u?y?, négatif. L'intervalle entre les événements est toujours du genre espace. La notion de 
passé et de futur pour ces deux événements n’est donc pas nécessairement invariante. 
On peut alors écrire les coordonnées correspondantes dans R’. Après un calcul sans difficulté, on 
trouve: 
ET PE (1.74) 


ce qui ne fait guère que vérifier la cohérence du calcul et 
tə = ——— . (1.75) 


L’événement 2 (sortie de la locomotive) s’est donc produit, dans R’, avant que l'arrière du train n’entre 
dans le tunnel, comme nous nous y attendions. Si il y a dans ce problème un paradoxe, il ne concerne 
pas la validité et la cohérence de la transformation de Lorentz. Ce n’est que la différence entre les 
prédictions de la relativité sur le temps et notre sens commun qui crée l’apparence paradoxale de ces 
situations. Ce n’est qu'avec une fréquentation assidue de ce genre de problèmes que peut se développer 
une intuition relativiste. Le problème est similaire, bien que moins ardu, à celui qu’on rencontre pour 
se forger une intuition en mécanique quantique. 


Chapitre 2 


Notations Quadridimensionnelles 


Nous allons introduire dans ce chapitre des notions mathématiques permettant de traiter la relativité 
restreinte d’une façon particulièrement aisée. En nous plaçant dans un espace-temps à quatre di- 
mensions, en le munissant d’une structure d’espace vectoriel, d’un produit scalaire et d’une norme, 
nous pourrons réinterpréter d’une façon très efficace les notions introduites dans le chapitre précédent. 
Les objets physiques, indépendants du choix du référentiel, seront alors décrits comme des vecteurs, 
ou, plus généralement des tenseurs (matrices) dans cet espace. La transformation de Lorentz ap- 
paraîtra alors comme un simple changement de base. Les lois de transformation de toutes les quan- 
tités physiques se déduiront alors simplement des règles de changement de base. Pour manipuler 
commodément ces vecteurs et ces tenseurs, nous introduirons également des notations tensorielles très 
puissantes dues à Einstein. Nous allons commencer par introduire la notion d’espace temps à partir 
de l’événement. 


2.1 4-vecteur position d’un événement. 


2.1.1 Coordonnées contravariantes 


Un événement est complètement défini dans un référentiel par la donnée des quatre nombres (ct, x, y, z). 
Nous considérerons donc un espace vectoriel à quatre dimensions (d’où le nom de 4-vecteur) muni 
d’un base e, (l'indice p variant entre 0 et 3) et nous associerons à cet événement le vecteur (ou plutôt 
le 4-vecteur): 


R=S z'e,, (2.1) 
H 


en posant 
0 


x? = ct, r! =g, =y, =z. (2.2) 
Nous appellerons les z” les composantes contravariantes du 4-vecteur événement. Par convention, 
dans toute la suite, on utilisera des indices supérieurs pour représenter ces composantes (le risque de 
confusion avec des exposants est pratiquement nul). Par convention aussi, nous ne préciserons pas le 
domaine sur lequel s'effectuent les sommations. Un indice représenté par une lettre grecque variera 
toujours entre 0 et 3 (0 représentant la coordonnée temporelle). Quand nous aurons besoin d’un 
indice ne parcourant que les valeurs 1 à 3 (et donc associé à de simples composantes spatiales), nous 
utiliserons un indice romain!: 

r = rt? , (2.3) 


L'écriture systématique des signes somme serait extrêmement fastidieuse, surtout quand nous 
manipulerons, avec les tenseurs, des sommes multiples. Nous adopterons donc la convention d’Einstein 


1Cette convention est très largement répandue dans les manuels récents. Signalons cependant que le Landau de théorie 
des champs, dont nous recommandons la lecture, utilise une convention strictement inverse. 
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de sommation sur les indices répétés. Quand, dans une expression, un même indice apparaît en haut 
et en bas, on doit sommer l’expression sur toutes les valeurs possibles de cet indice (0 à 3 pour un 
indice grec, 1 à 3 pour un indice romain). On écrira donc simplement: 


R= 5 TEn =T en.: (2.4) 
m 

Insistons sur le fait, dont la raison apparaîtra plus clairement plus tard, que l’on ne somme implicite- 
ment sur un indice que s’il apparaît une fois en haut et une fois en bas. Le même indice apparaissant 
deux fois en bas ne doit pas être sommé. Une écriture comme T,,, par exemple, représentera un 
élément diagonal d’un tenseur (disons à ce stade d’une matrice) et pas une somme. La trace de cette 
matrice s’écrirait T„”, la convention de somme s’appliquant alors à l’indice répété. Nous verrons 
dans la suite de cet exposé à quel point cette simple convention de sommation implicite améliore les 
écritures. Nous appellerons indice “libre” un indice sur lequel la règle de sommation ne s'applique pas 
(qui donc reste en tant qu’indice dans l'expression finale) et “muet” un indice faisant l’objet d’une som- 
mation implicite (et n’apparaissant pas en tant que tel dans l'expression finale?). Nous respecterons, 
pour les indices libres, la règle de “balancement”. Dans une équation, les indices libres apparaissant 
dans les deux membres doivent se correspondre un à un et apparaître en même position (haut ou bas). 
Nous comprendrons plus tard que, si ce n’était pas le cas, les objets décrits par les deux membres de 
léquation ne seraient pas de même nature. Ces règles de sommation et de balancement, qui portent 
sur la typographie des équations, constituent en fait, en plus d’une simplification notable, un système 
de garde-fous rendant impossible l'écriture d'expressions absurdes. Elles jouent en relativité le rôle 
des notations de Dirac de la mécanique quantique qui relient de façon univoque la nature de l’objet 
(fonction d’onde, objet du dual, produit scalaire, opérateur) à son écriture (ket, bra, bra ket, ket bra). 
Nous pouvons munir notre espace-temps d’un produit scalaire. Considérant deux 4-vecteurs as- 

sociés à deux événements, R = z”e, et S = yl'e,, nous pouvons écrire le produit scalaire comme 


R-S = zye e. (2.5) 


Nous souhaiterions bien sûr que notre produit scalaire ait une expression compatible avec celle de 
l'intervalle. Il faut pour celà que R - R = ct? — r? — y? — z2. En posant: 


Juv — Eu Er » (2.6) 

le produit scalaire s’écrit: 
R-S = JuvTty” (2.7) 
(où lon voit bien la simplification apportée par la convention de sommation implicite). Nous aurons 
un produit scalaire convenable si le tableau de nombres guv (que nous ne pouvons encore considérer 
comme un opérateur ou un tenseur — et que nous nommerons néanmoins le “tenseur métrique”) s'écrit: 


1 0 0 0 
(2.8) 
0 0 0 —1 


Dans ce tableau, u est l’indice ligne et v l'indice colonne. Cette convention sur le tenseur métrique 
peut aussi être vue comme une condition d’orthonormalité pour la base e,. Nous ne considérerons 
dans la suite que des bases “orthonormées” dans ce sens. Notons également que le carré scalaire ne 
conduit pas à une norme définie positive (nous savons bien que le carré d’un intervalle de genre espace 
est négatif). Le tenseur métrique qui n’apparaît ici que comme une notation commode dans l'écriture 
du produit scalaire de deux événements est une des notions centrales en relativité générale, puisqu'il 
constitue la variable dynamique du champ de gravitation. 

Cette écriture du produit scalaire peut être rendue plus compacte encore en introduisant la notion 
de coordonnée covariante. 


2Remarquons à ce propos que le nom d’un indice muet n’a aucune importance dans l'écriture. 
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2.1.2 Coordonnées covariantes 


Posons: 
Un = JuvY . (2.9) 


Avant d’aller plus avant, commentons le fonctionnement des règles de sommation sur cette expression. 
L'indice répété (haut et bas) dans le membre de droite est v. On doit donc sommer sur toutes les 
valeurs de cet indice. L’indice u est un indice libre, qui apparaît sous le même nom et dans la même 
position (basse) dans les deux membres de l'équation. Nous appellerons “coordonnées covariantes de 
l'événement” les composantes y,- 

En pratique, les règles de correspondance entre composantes contravariantes et composantes covari- 
antes sont très simples: yọ = y?, y = —y!. Les composantes covariantes nous permettent d’abaisser 
(ou d’élever pour la transformation inverse) les indices. Les écritures précédentes révèlent une règle 
très générale: l’abaissement ou l'élévation d’un indice spatial change le signe, alors que l’élévation ou 
l’abaissement d’un indice temporel ne s'accompagne pas d’un changement de signe. 

Avec ces notations, le produit scalaire de deux 4-vecteurs s’écrit simplement: 


R-S = "ypu (2.10) 


mais aussi 


R-S = ruy” avec Ey = Juv” . (2.11) 


Le mérite de ces notations est donc de dissimuler les conventions de signes du tenseur métrique dans 
la définition des coordonnées covariantes et d'obtenir un produit scalaire s’écrivant “normalement”. 
On peut bien sûr écrire la transformation inverse, donnant les coordonnées contravariantes en fonction 
des coordonnées covariantes. En définissant un nouveau “tableau de nombres” g”” par: 


y” = y , (2.12) 
on peut écrire: 
y” = g" Yp = 9Ä poy? : (2.13) 
Les g”” sont donc tels que: 
JÄ Ipo = do » (2.14) 


où les symboles 67 sont de simples symboles de Kronecker (1 si les deux indices sont égaux, 0 sinon). 
En termes de matrices, la matrice des g”” est donc inverse de la matrice des guv. On a donc: 


1 0 0 0 
0 —1 0 0 
uwv 
g e ae n D (2.15) 
0 0 0 —1 


A titre d’exercice, montrons que les deux écritures du produit scalaire de l’équation (2.11) sont bien 
équivalentes: 


x y = g” EvgupYy? = g” guptvy? = g1 Iuptvy? = Ô Try? = AY , (2.16) 
p 


la première et la dernière expression étant bien sûr équivalentes, puisque le nom d’un indice muet 
n’a aucune importance. Nous avons utilisé ici explicitement la symétrie du tenseur métrique par une 
permutation des indices. 
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2.1.3 Coordonnées covariantes, contravariantes et dualité 


Nous avons introduit dans le paragraphe précédent les coordonnées covariantes comme une simple 
commodité de notation. En fait, elles ont une signification mathématique beaucoup plus profonde et 
plus fructueuse en termes de dualité. Nous allons donc rappeler quelques propriétés essentielles de la 
dualité (une notion d’algèbre linéaire qui joue aussi un rôle central en mécanique quantique). 

Sur un espace vectoriel M, nous pouvons définir des formes linéaires. Une forme linéaire associe 
à tout vecteur un nombre réel (complexe dans le cas des espaces de Hilbert). On notera R une 
forme linéaire et R(S) le nombre réel associé au vecteur S. Une forme linéaire est, comme son 
nom l'indique, une fonction linéaire de son argument vectoriel. On a donc des relations telles que: 
R(S + T) = À(S) + R(T) (le lecteur rétablira aisément l’ensemble des règles convenables). 

On peut définir sur l’ensemble des formes linéaires une addition (simple addition des images) et la 
multiplication par un scalaire réel. Ces deux opérations confèrent à l’ensemble des formes linéaires une 
structure d’espace vectoriel. Nous l’appellerons l’espace dual de notre espace vectoriel initial (nous 
noterons M* le dual de l’espace M). 

On montre que, si M est de dimension finie, le dual est de même dimension. On peut de plus, si 
M est muni d’un produit scalaire, définir une bijection entre l’espace et le dual. On associe à chaque 
vecteur R la forme linéaire À définie par R(S) = R-S. A chaque vecteur est associée une forme linéaire 
et chaque forme linéaire peut s’écrire comme un produit scalaire avec un vecteur fixe Les propriétés 
de linéarité du produit scalaire assurent que cette bijection est un isomorphisme entre l’espace et son 
dual. Cette relation très forte fait que l’on peut considérer un même objet soit comme un vecteur, soit 
comme une forme linéaire. En particulier, nous pourrons, dans l’espace temps à quatre dimensions, 
considérer au choix un événement comme un vecteur ou comme une forme linéaire. En fait, nous 
confondrons souvent les deux représentations en un seul objet. 

Dans l’espace dual, nous pouvons choisir une base. En raison de l’isomorphisme avec l’espace 
d’origine, il est logique de prendre pour base les formes linéaires associées aux vecteurs de base de 
l’espace d’origine. En fait, pour des questions de notation, nous choisirons dans l’espace dual la base 
e! définie par: 

E (e) = 0, . (2:17) 
Notons que cette expression ne fait intervenir aucune sommation implicite. Notons également que les 
€" diffèrent des formes associées aux vecteurs de base par le signe, quand l'indice u est spatial. Nous 
pouvons alors former, à partir d’un 4-vecteur événement R = r/e,,, la forme linéaire xë”. L'action de 
cette forme sur le 4-vecteur S = yl'e, s'écrit alors zê (yep) = xy“ = R-S. La forme ainsi construite 
coïncide donc avec la forme linéaire À associée au vecteur R. Si les composantes contravariantes sont 
les composantes du 4-vecteur, les composantes covariantes sont les composantes de la forme linéaire 
associée à ce vecteur sur la base duale. Ceci donne à ces composantes une signification mathématique 
beaucoup plus forte qu’une simple convention de signe. Comme nous pouvons confondre vecteur et 
forme linéaire en un seul objet physique, les composantes contravariantes et covariantes ne sont que 
deux écritures différentes d’une même quantité. 

D'un point de vue “typographique”, notons que les indices sont en bas pour les bases dans l’espace 
d’origine, en haut pour les bases dans l’espace dual, alors que les composantes dans l’espace d’origine 
(contravariantes) ont des indices en haut et les composantes dans l’espace dual (covariantes) des indices 
en bas. On comprend bien ici l’origine mathématique des règles de sommation sur les indices. N’écrire 
de sommations implicites que si l’un des indices est en haut et l’autre en bas, c’est reconnaître que la 
seule opération légitime est l’action d’une forme linéaire sur un vecteur (ou, autrement dit, le produit 
scalaire). 


2.1.4 Changement de référentiel, changement de base 


Un changement de référentiel transforme, comme nous l’avons vu au chapitre précédent, les coor- 
données contravariantes d’un événement par la transformation de Lorentz. Nous allons d’abord ex- 
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primer cette transformation pour les coordonnées contravariantes et en déduire les transformations 
des coordonnées covariantes. Nous profiterons, pour ces écritures, de nos nouvelles notations. Nous 
reviendrons ensuite sur les transformations des vecteurs de base pour notre espace-temps et nous 
montrerons que la transformation de Lorentz est un simple changement de base orthonormée. 

Les transformations que nous considérerons dans ce chapitre sont tout à fait générales. Elles 
englobent la forme spéciale de la transformation de Lorentz mais elles contiennent aussi les rotations, 
réflexions d'espace. constituant le groupe de Lorentz complet. Toutefois, quand nous expliciterons 
la forme des transformations, nous nous limiterons à la forme spéciale. Le passage au cas général ne 
pose que des problèmes d'écriture. 

On peut écrire la transformation de Lorentz pour les coordonnées contravariantes comme: 


r” = Lpr” , (2.18) 


où les x” sont les composantes de l’événement dans le référentiel R et les x'’” les composantes con- 
travariantes dans le nouveau référentiel R’. En considérant, dans le tableau de nombres £L#,,, Pindice 
u (relatif donc au nouveau référentiel) comme un indice ligne et l’indice v (relatif à l’ancien référentiel) 
comme un indice colonne, l’expression (2.18) apparaît comme un simple produit matriciel. Dans le 
cas de la forme spéciale de la transformation, on a simplement: 


= 0 0 
LH, = A ù WE (2.19) 
0 0 01 


qu’on pourrait encore écrire en termes de la rapidité @, paramètre additif du groupe de Lorentz. La 
transformation inverse peut a priori s’écrire 


z” = (Lpr ,. (2.20) 


La matrice inverse L7! s’obtenant simplement en changeant le signe de 8 dans les expressions précé- 
dentes. Nous verrons qu’en fait l’utilisation de cette matrice inverse n’est pas indispensable. 

Examinons maintenant la loi de transformation des coordonnées covariantes (dans l’espace dual). 
Définissons un nouveau “tableau de nombres” £,” par: 


fp = Lp fy (2.21) 


Notons tout de suite que £L,” est forcément différent de £L#,. L'ordre et la position (haute ou basse) 
des indices sont donc tous deux essentiels pour définir les quantités que nous manipulons. On peut 
déduire le lien entre £,” et £”, de linvariance du produit scalaire (qui découle de l’invariance de 
l'intervalle). On a en effet: 


x yp =y avec GPL et y'n =L Yo. (2.22) 


On en déduit donc: 
Lr ot. Lu Yo =x Yn = TTL (2.23) 


Cette relation devant être vérifiée pour tout couple de vecteurs, on a: 
L” Lp? = ô; - (2.24) 


Notons que le membre de gauche de cette équation ne décrit pas un produit de matrices. En toute 
rigueur, on effectue la sommation sur deux indices lignes. Dans le cas de la forme spéciale de la trans- 
formation de Lorentz, les matrices sont symétriques et la matrice de transformation des coordonnées 
covariantes est simplement l'inverse de la matrice de transformation des coordonnées contravariantes, 
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inverse que l’on obtient en changeant le signe de la vitesse relative. On aurait pu établir ce résultat en 
remarquant simplement que le passage des coordonnées contravariantes aux coordonnées covariantes 
est un simple changement de signe pour les composantes spatiales. On change donc, dans la matrice 
de transformation, le signe des éléments spatio-temporels. Dans la forme spéciale de la transformation 
de Lorentz, cela revient à changer le signe de 2. 

On peut préciser encore le lien entre ces deux transformations en faisant intervenir le tenseur 
métrique dans l’expression du produit scalaire: 


R-S = Pgp yY? = T gpuvy” . (2.25) 


Le tenseur métrique qui exprime l’orthogonalité de la base est en effet évidemment invariant dans une 
transformation de Lorentz. En exprimant les nouvelles coordonnées en fonction des anciennes, on a: 


LP gpa Y? z LË p2? guv Ll” oy? . (2.26) 
Cette relation étant vérifiée quelque soient R et S, on en déduit: 
Ipo = LË ogul” o - (2:27) 


Le déterminant de la matrice représentant le tenseur métrique étant 1, on retrouve à partir de 
cette expression que le déterminant de la matrice représentant la transformation de Lorentz est +1 
(rappelons qu’il n’est négatif que si la transformation fait intervenir une réflexion d’espace ou de 
temps). On peut mettre la dernière relation sous une forme plus parlante en multipliant les deux 
membres par g7’? et en effectuant les sommations: 


g’ Ipo = ôs = gP LË ogul” o ; (2.28) 


et donc: 
(gP Iu LP p) L” o = ôg - (2.29) 


En rapprochant cette équation de (2.24) en utilisant la symétrie de g, on voit que: 
L = Ivg’ L" p Ê (2.30) 


D'un point de vue purement typographique, l’interprétation de cette relation est transparente. Nous 
savons, pour les coordonnées simples, que l’application d’un tenseur métrique avec les indices hauts 
transforme une coordonnée covariante (indice bas) en un coordonnée contravariante (indice haut). 
Elever les indices nécessite l’action d’un tenseur métrique à indices hauts (nous dirons complètement 
contravariant). De même un tenseur métrique complètement covariant (indices bas) abaisse l’indice, 
transformant une coordonnée contravariante en une coordonnée covariante. La relation que nous 
venons d'établir pour les changements de base généralise ce principe. Pour passer de £L#,, avec le 
premier indice en haut et le second en bas, à £,, il faut appliquer deux tenseurs métriques, l’un 
complètement contravariant qui élève l’indice colonne, l’autre complètement covariant qui abaisse 
l'indice ligne. Si on fait confiance à ces règles typographiques, l'établissement détaillé de (2.30) est 
inutile et on peut écrire cette transformation a priori. On écrira ainsi la relation inverse: 


L”; = grog" Lp . (2.31) 


Remarquons que la forme très simple du tenseur métrique rend triviales les modifications dans un 
abaissement ou une élévation d’indice. Comme pour les coordonnées, le changement de position 
d’un indice spatial change le signe alors qu’un indice temporel ne change pas le signe. Dans le 
passage d’une transformation à l’autre, seuls changent de signe les coefficients spatio-temporels. Les 
coefficients spatiaux et temporels sont inchangés. C’est bien ce qu’on observe sur la forme spéciale de 
la transformation de Lorentz. 
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On pourrait penser alors ne faire agir sur les transformations de Lorentz qu’un tenseur métrique 
et à définir deux nouvelles quantités: 


LR g PL" p (2.32) 
Lpo = Juvl” o. (2.33) 


En fait ces nouvelles quantités décrivent, comme nous allons le voir, le passage simultané d’un 
référentiel à l’autre et d’un type de coordonnées à l’autre. On a en effet: 


DELA, d'a, Le (2.34) 


et de même: 
Dh (2:35) 


On peut enfin utiliser la relation (2.24) pour exprimer le changement de référentiel inverse sans 
faire intervenir la transformation L71. On a en effet: 


Pret" E tr = =; (2.36) 


et donc 
MP (2.37) 


On peut bien sûr écrire des transformations similaires pour les coordonnées contravariantes ou toute 
combinaison de composantes mixtes: 


ue Lies (2.38) 
r” a (2.39) 
Re (2.40) 
DU ee pe Pie (2.41) 


les différentes expressions de la transformation se déduisant de la forme originale par les règles 
d’élévation et d’abaissement des indices. Ces différentes combinaisons s’obtiennent automatiquement 
(ou plutôt typographiquement) en respectant les règles de balancement des indices, en attribuant le 
premier indice (ligne) au nouveau référentiel, le second à l’ancien et en sommant sur l’indice corre- 
spondant au référentiel de la coordonnée à transformer. L'ensemble de ces règles très strictes, que nous 
avons justifiées en détail, minimise le risque d’erreurs dans ces écritures, beaucoup plus efficacement 
qu'avec les notations standard de l’algèbre linéaire. 

Nous terminerons ce paragraphe en examinant les lois de transformation des vecteurs de base 
de notre espace-temps. De manière évidente, la transformation de Lorentz correspond à un simple 
changement de base dans l’espace temps. Le même événement, le même vecteur, s'exprime par deux 
jeux de composantes différentes quand on le représente dans deux référentiels ou deux bases différentes. 
En remarquant que x, = R- e, = R(e,) et que x’, = Re}, où les e’, sont les transformés des 
vecteurs de base, on peut écrire R-e’, = L,” R- e, relation qui doit être vérifiée pour tout vecteur 
R. On en déduit donc que: 

Ep = Lgr - (2.42) 


En d’autres termes, la loi de transformation des vecteurs de base est celle des composantes covari- 
antes, inverse (au sens précisé plus haut) de la transformation des composantes contravariantes. Les 
appellations covariantes et contravariantes proviennent précisément de ces comportements. 
On peut aussi exprimer la loi de transformation de la base duale. En écrivant x'* = ##(R), 
x” = EM(R), on en déduit: 
EEE L E à (2.43) 


Les vecteurs de la base duale se transforment donc comme les composantes contravariantes. 
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2.2 Autres 4-vecteurs 


2.2.1 Définition 


Nous n'avons considéré jusque là que le 4-vecteur associé à la position d’un événement dans l’espace- 
temps. Nous allons maintenant généraliser la notion à d’autres quantités physiques. Nous appellerons 
4-vecteur toute quantité physique s'exprimant par 4 coordonnées (covariantes ou contravariantes) se 
transformant comme le 4-vecteur position dans un changement de référentiel (c’est à dire par une 
transformation de Lorentz). De manière évidente, toute collection de quatre quantités physiques 
arbitraires ne constitue pas un 4-vecteur. Nous verrons dans les prochains paragraphes quelques 
exemples de 4-vecteurs. 

Les composantes contravariantes de tout 4-vecteur À peuvent s’écrire sous la forme de trois com- 
posantes spatiales qui forment un vecteur (ce qui résulte des lois de transformation dans le sous 
groupe du groupe de Lorentz qui décrit les changements de repère sans changement de référentiel) 
et d’une coordonnée temporelle. Nous noterons A = (a°,a), où a? est sa composante temporelle et 
a le vecteur tridimensionnel. Les composantes covariantes pourraient alors se mettre sous la forme 
(ao = a°,—a). A priori, ces composantes ont une dimension qui peut être différente de celles des 
composantes du 4-vecteur position. Chaque espèce de 4-vecteur devrait donc, en toute rigueur, exis- 
ter dans un espace-temps propre. En fait, comme en dynamique classique, nous ferons évoluer tous 
nos 4-vecteurs, positions, vitesses et accélérations dans le même espace. Nous prendrons simplement 
garde à ne pas additionner des objets de natures différentes. 

Les notions de produit scalaire, de composantes covariantes et contravariantes, les règles de change- 
ment de base ou de référentiel s'appliquent bien sûr aux 4-vecteurs quelle que soit leur nature. 

Nous profiterons aussi de ce paragraphe pour introduire la notion de 4-scalaire. Il s’agit simple- 
ment d’une quantité physique indépendante du référentiel, telle que la vitesse limite, la constante de 
structure fine, la masse d’une particule ou, plus simplement, le produit scalaire de deux 4-vecteurs (le 
produit scalaire de vecteurs de dimensions différentes n’étant pas exclu). Le produit d’un 4-vecteur 
par un 4-scalaire donne bien sûr un autre 4-vecteur. 


2.2.2 4-vitesse, 4-impulsion, 4-accélération 


Nous chercherons ici à définir la vitesse d’une particule relativiste. Il nous faut pour cela paramétrer la 
ligne d’univers de la particule par un paramètre temporel. Ce paramètre doit être un 4-scalaire. Nous 
pourrons ainsi définir simplement la vitesse comme étant le rapport de l’accroissement du 4-vecteur 
position pendant un petit intervalle de temps à l’accroissement de ce paramètre temporel. Le résultat 
sera alors évidemment un 4-vecteur. Le temps absolu d’un référentiel ne convient pas pour paramétrer 
la trajectoire. Nous avons vu, en revanche, que le temps propre 7 de la particule en mouvement est 
indépendant du choix de référentiel. Ce temps propre permet donc de définir un 4-vecteur vitesse par: 


y-®R 


=. (2.44) 


Ecrivons cette quantité en fonction de la vitesse spatiale ordinaire v de la particule dans un référentiel 
R donné. Si le temps propre varie de dr, le temps dans R varie de dt = ydr (dilatation des temps). 
La position de la particule variant de dr = vdt, on a immédiatement dR/dt = (c, v) et 


U = (cy, yv). (2.45) 


Remarquons que la partie spatiale de la 4-vitesse n’est autre que la célérité (vitesse calculée dans 
l’espace du référentiel et dans le temps propre de la particule). U étant un 4-vecteur, il se transforme 
par la transformation de Lorentz dans un changement de référentiel. Un excellent exercice consiste 
à appliquer les lois de transformations décrites au paragraphe précédent pour retrouver la loi de 
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composition des vitesses relativistes. Notons enfin que le carré de la norme de U, U“U „ = eggo = 
c n’est autre que le carré de la vitesse de la lumière. 
En multipliant la 4-vitesse par la masse de la particule, qui est évidemment un 4-scalaire, on 


obtient encore un 4-vecteur, l’impulsion de la particule: 
P = mU = (p°, p) = (myc, myy) . (2.46) 


Cette quantité jouera un rôle essentiel dans notre nouvelle dynamique. 
La 4-vitesse U est en général une fonction du temps propre 7 de la particule. Nous pouvons donc 
la dériver encore par rapport à ce temps, pour aboutir à une définition de la 4-accélération 


dU dU 
Elara, (2.47) 


Pa 
dr dt 


où y' = dy/dt est la dérivée temporelle ordinaire du facteur y et a est l’accélération tridimensionnelle 
de la particule. On remarque que la 4-accélération est perpendiculaire à la 4-vitesse: T“U„ = 0. 
Si on peut établir cette relation à partir des expressions précédentes de ces 4-vecteurs, elle découle 
beaucoup plus simplement du fait que le module de U est une constante. 


2.2.3 Densité de courant 


` 


Nous allons maintenant former un 4-vecteur à partir de la densité de charges p et de la densité 
de courant j. Il est clair en effet que ces deux quantités se transforment de manières profondément 
reliées dans un changement de référentiel. Pour comprendre comment former ce 4-vecteur, nous allons 
considérer le cas d’une charge q “ponctuelle”, que nous modéliserons comme une densité de charge 
constante contenue dans un petit élément de volume dV (défini dans un référentiel R). Nous écrirons 
donc q = pdV. La particule se déplace à la vitesse v dans R. La densité de courant est donc j = pv 
en tous points de dV (elle est nulle en dehors). 

Dans un autre référentiel R/, toutes ces quantités sont a priori modifiées. La “particule” oc- 
cupe, à un instant donné dans R’, un élément de volume dV’. Seule la charge totale q, qui est 
une propriété intrinsèque de la particule, est un 4-scalaire. On a donc pdV = p'dV'. En d’autres 
termes, pdV est un 4-scalaire (notons que le lien entre dV et dV’ n’est pas évident, puisqu'il faut 
faire la transformation de Lorentz sur tous les “coins” de l’élément de volume. Nous reviendrons 
bientôt sur ce point). Considérons maintenant un intervalle de temps dt dans R. Pendant ce 
temps, la particule se déplace de dz” = (cdt,dr) qui est évidemment un 4-vecteur. La quantité 
pdV dx = pdtdV (dx /dt) = p(d{/c)dx" /dt est donc, elle aussi un 4-vecteur, si dQ = cdtdV représente 
un élément d'intégration dans l’espace-temps (en revanche, dz” /dt n’est pas un 4-vecteur, de même 
que dt ou dV pris séparément ne sont pas des 4-scalaires). 

Nous montrerons maintenant que dQ = cdtdV est un 4-scalaire. D'un point de vue physique, 
dO représente un petit domaine de l’espace-temps considéré entre deux instants infiniment voisins 
et a la dimension d’un volume multiplié par un temps. Modélisons ce petit domaine par un cube 
élémentaire de dimensions dx, dy et dz (voir Fig. 2.1). Si nous choisissons les axes convenablement, 
nous n’aurons à considérer que la forme spéciale de la transformation de Lorentz. Les coordonnées y 
et z étant inchangées, nous nous ramenons à démontrer l’invariance de l’élément de surface dans le 
plan (x,t). L'étendue de notre élément est la surface rectangulaire de côtés dx et dt dans le référentiel 
R. Sa mesure est bien dxdt. Remarquons tout de suite que dxdt n’est pas un invariant de Lorentz, 
comme on peut s’en convaincre aisément. Vu dans le référentiel R’, le petit élément de surface prend 
l’aspect représenté sur la partie droite de la figure 2.1. Il s’agit d’un petit losange. La surface de 
ce losange peut s'exprimer facilement en écrivant les transformés de Lorentz de trois des sommets. 
En fait, on trouve que cette mesure, qui est manifestement différente de dx’/dt' est égale à dxdt (ce 
résultat découle directement du fait que le déterminant de la transformation de Lorentz est un, ce 
qui confirme sa généralité). L’étendue totale dans l’espace-temps d’un petit élément d’intégration est 
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Figure 2.1: Un même élément de volume de l’espace-temps vu dans deux référentiels. La forme change, mais la surface 


(ou l’hypervolume dans l’espace quadridimensionnel) est constante. 


donc un 4-scalaire (résultat qui nous permettra plus tard de définir convenablement des intégrales de 
volume dans l’espace-temps). 
On déduit de tout ce qui précède que 


JE = p— (2.48) 


est un 4-vecteur réunissant les densités de charge et de courant créés par une charge ponctuelle. On 
peut aussi écrire 
JP = (cp, j) , (2.49) 


en faisant intervenir la densité de courant tridimensionnelle. Pour une répartition quelconque de 
charges et de courants, résultant de la superposition des mouvements d’un grand nombre de particules 
ponctuelles, la quantité écrite en termes des densités totales de charges et de courants est bien sûr 
encore un 4-vecteur. 


2.2.4 Vecteur d’onde 


Considérons, dans le référentiel R, une onde plane monochromatique de fréquence w et de vecteur 
d’onde k. Les différents champs et potentiels de cette onde sont tous proportionnels à exp(—i@) avec: 


ns (2.50) 


La phase 6 de l’onde plane se doit d’être un 4-scalaire. Sa valeur pour un événement donné représente 
en effet la valeur relative commune des champs et potentiels par rapport à leur maximum. Les trans- 
formations de Lorentz de ces quantités, dont nous ne préjugerons pas encore, étant sûrement linéaires, 
le même facteur exp(id) décrit, dans un autre référentiel R’, la valeur des quantités transformées par 
rapport à leurs nouvelles amplitudes. 
En posant 
k” = (w/c,k), (2.51) 


on peut, au moins formellement, écire: 
Q= kut" , (2.52) 


où les z” sont les composantes contravariantes de l'événement considéré. % étant un 4-scalaire et z” 
un 4-vecteur, il est évident que k” est, lui aussi, un 4-vecteur généralisant le vecteur d’onde dans 
l’espace-temps. On notera que sa norme est nulle: 


kuk” = 0 (2.53) 
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puisque w? — ck? = 0 pour une onde plane dans le vide. Le vecteur d’onde se transforme donc 
simplement par une transformation de Lorentz quand on passe d’un référentiel à un autre: 


Re L”, k” . (2.54) 


En explicitant cette transformation pour les coordonnées spatiales et temporelle, on obtient: 


1 


w = Ņy(w-— ukr) (2.55) 
k, = (kr — Bw/c) (2.56) 
ky = ky (2.57) 
k =k (2.58) 


Dans la première équation, on reconnaît le changement de fréquence d’une onde dans un changement 
de référentiel, c’est à dire l’effet Doppler. L'expression que nous trouvons ici ne diffère de l'expression 
habituelle en relativité galiléenne (w = w — k : u) que par le facteur de dilatation des temps y (il est 
bien naturel que ce facteur intervienne dans la modification de la fréquence). Pour des mobiles qui ne 
sont pas trop rapides (ce qui est presque toujours le cas, par exemple, pour des sources atomiques), 
l'effet Doppler reste dominé par l'effet classique. Il est un cas cependant où l'effet relativiste domine, 
celui où la vitesse u est strictement perpendiculaire au vecteur d’onde. En cinématique classique, la 
fréquence n’est pas affectée. En relativité einsteinienne, en revanche, la fréquence est multipliée par 
le facteur y de dilatation des temps. La modification relative de la fréquence est donc du second 
ordre en 8 (d’où le nom d’effet Doppler du second ordre), alors que l’effet Doppler classique est du 
premier ordre. C’est donc un effet faible pour des vitesses ordinaires qui est cependant gênant dans 
des expériences de haute précision. La spectroscopie atomique la plus précise actuellement est réalisée 
sur des atomes d'hydrogène excités par laser. Pour s’affranchir de l'effet Doppler, on fait en sorte que 
la vitesse des atomes soit très précisément perpendiculaire à la direction du laser. La cause essentielle 
d'erreur devient alors l’effet Doppler du second ordre qu’il faut corriger très précisément. Pour cela, il 
est indispensable de réduire autant que possible la vitesse des atomes et de la déterminer précisément. 

Les équations portant sur la partie spatiale décrivent le changement de direction de propagation. 
Les composantes transverses ne sont pas modifiées. La composante longitudinale change de telle 
manière que la relation de dispersion des ondes planes dans le vide k’ = w'/c reste vérifiée, comme on 
pourra s’en convaincre aisément. Notons qu’on peut ainsi retrouver de manière très rapide l’aberration 
relativiste des étoiles. La situation que nous considérions au chapitre précédent était en effet une onde 
se propageant vers l’origine le long de l’axe Oy: k, est donc la seule composante non nulle dans le 
référentiel R. En appliquant la transformation précédente, on trouve immédiatement: 


ky = ky=-w/c (2.59) 
k, = —GByw/c (2.60) 


La direction de propagation fait donc, dans le référentiel R’ un angle 0 = arctan 8y avec l’axe Oy/. 
Nous retrouvons bien le résultat du chapitre précédent. 


2.3 Tenseurs 


Nous aurons à manipuler des quantités plus complexes que les 4-vecteurs. Dans un espace vectoriel, on 
peut bien sûr définir des opérateurs linéaires, représentés par des matrices dans une base convenable. 
En fait, nous considérerons des objets plus généraux pouvant dépendre de plus de deux indices. De 
tels objets décrivent des lois de composition multilinéaires entre vecteurs ou opérateurs. Les tenseurs 
se retrouvent en fait dans de nombreux domaines de la physique. En élasticité, par exemple, la 
déformation d’un solide dans une direction peut dépendre d’une contrainte appliquée dans une autre 
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direction. La relation linéaire correspondante est décrite par un tenseur de rang 2. En optique non 
linéaire, un ensemble de trois champs électriques peut créer une polarisation dans le milieu. Il faudra 
donc écrire une application linéaire donnant un vecteur à partir de trois autres, ce qui doit être décrit 
par un tenseur à quatre indices. Notons tout de suite que n'importe quel tableau de nombres n’est 
pas un tenseur, comme toute collection de nombres ne représente pas forcément un vecteur. Il faut, 
de plus, que ces quantités se transforment “bien” dans un changement de base. 


2.3.1 Tenseurs contravariants 


L'opération de produit tensoriel permet d’associer à l’espace vectoriel M un espace M @ M, plus 
grand. À tout couple de vecteurs R et S de M, on associe un vecteur R & S de M & M. Une base 
de M & M est formée des 16 produits tensoriels possibles formés avec les 4 vecteurs de base de M: 
e, 8 €v. Les composantes de R & S sur cette base sont les produits des composantes de R et S: 


ROS=z:"y'e, Se, . (2.61) 


La dimension de l’espace produit tensoriel est 16.Un produit tensoriel de deux vecteurs ne dépend que 
de 8 paramètres libres. Nous pouvons donc définir des objets plus généraux que les produits tensoriels 
de vecteurs: les tenseurs de rang 2 complètement contravariants, éléments de l’espace M @ M. Nous 
noterons T#” les composantes d’un tel tenseur sur la base e, & e,. En fait, nous avons déjà rencontré 
de tels objets, par exemple avec le tenseur métrique complètement contravariant. 

On peut déduire la règle de transformation d’un tenseur dans un changement de base (c’est à dire 
une transformation de Lorentz) de celle d’un produit tensoriel de vecteurs: T#” se transforme comme 
un produit de composantes contravariantes: 


TER LR (2.62) 
En appliquant les règles du paragraphe précédent, nous aurons aussi la transformation inverse: 
PARLE; (2.63) 


Notons que ces expressions ne décrivent pas des produits de trois matrices au sens ordinaires. Dans 
la première, par exemple, la sommation sur ø est une sommation sur un indice colonne dans les 
deux termes où il apparaît. Il faut donc prendre garde, dans les calculs pratiques, d'effectuer les 
transpositions nécessaires si on veut utiliser les règles standard du produit matriciel. 

L'opération de produit tensoriel peut être généralisée aisément à un nombre arbitraires de ter- 
mes. On peut définir l’espace M®*, produit tensoriel de M k fois avec lui même. Les éléments de 
cet espace, de dimension 4*, sont les tenseurs complètement contravariants de rang k et leurs com- 
posantes s’écriront THPT, Ces composantes se transforment par un “produit” de k transformations 
de Lorentz. Nous laissons au lecteur le soin de l'écrire. Un tenseur de rang n décrit une transformation 
multilinéaire qui, à n — 1 vecteurs associe un vecteur. 


2.3.2 Tenseurs covariants, tenseurs mixtes 


Ce que nous avons fait pour l’espace M peut être repris pour son dual M*. On peut définir ainsi des 
tenseurs de rang deux, complètement covariants, dont les composantes sur la base produit tensoriel 
E€ Q € s’écriront Tuv. La transformation de Lorentz de ces quantités s’écrit simplement: 


Tv = Lu Lu T po . (2.64) 


On peut faire le produit tensoriel d’un nombre arbitraires d'espaces duaux. On peut aussi définir 
des objets appartenant au produit tensoriel de l’espace M par son dual M*. On obtient alors des 
tenseurs mixtes de rang deux (ou plus si on utilise plusieurs M et M*) dont les composantes s’écriront 
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T”, (pour M @ M*) ou T,” (pour M* @ M). Notons que ces deux écritures recouvrent a priori des 
objets différents. La règle de transformation d’un tel tenseur mixte est simplement: 


MS LLT’ , (2.65) 


et se généralise aisément à tout tenseur mixte de n’importe quel rang. 

En fait, nous savons bien que les composantes contravariantes et les composantes covariantes 
recouvrent le même objet physique. Il en est de même pour les tenseurs: une quantité physique 
s'exprimant comme un tenseur peut être écrite à volonté comme un tenseur complètement contravari- 
ant, complètement covariant, ou mixte de façon arbitraire. Comme pour les composantes des 4- 
vecteurs (et cela résulte du lien entre tenseur et produits de ces composantes), le tenseur métrique g#” 
ou guv peut être utilisé pour élever ou abaisser les indices. Nous pourrons écrire par exemple: 


THY = g?g” T po (2.66) 
EE y E g’ gvoT p (2.67) 
TE, — Gus T”? 5 (2.68) 


Le tenseur métrique se réduisant en relativité restreinte, à un tableau diagonal de signes, ces règles 
de transformation prennent une forme très simple: l’abaissement ou l'élévation d’un indice spatial 
change le signe de la quantité, alors que l’élévation ou l’abaissement d’un indice temporel ne change 
rien. On trouve ainsi, par exemple, que seuls les indices spatio-temporels changent de signe dans le 
passage d’un tenseur de rang 2 de la forme complètement contravariante à la forme complètement 
covariante. 

Ces définition des tenseurs peut paraître abstraites. On peut aussi voir les tenseurs de rang deux 
comme des applications linéaires de l’espace M dans lui même (ou de son dual dans lui même). Un 
tenseur complètement covariant de rang 2, par exemple, décrit naturellement une application linéaire 
de M dans M*. L'image W d’un vecteur V s’écrit alors: 


Wp = TV. (2.69) 


On aurait des écritures similaires pour les tenseurs complètement contravariants (de M* dans M) ou 
les tenseurs mixtes, décrivant la transformation entre deux objets de même nature. Nous laisserons 
au lecteur le soin de les écrire. 

Les règles de changement de base pour les tenseurs peuvent se déduire de cette forme. Nous 
prendrons une transformation de Lorentz £. Les transformations des composantes de W et de V 
s'écrivent: 

W'p = L#Wp VASL VT, (2.70) 
On peut donc écrire: 
W p= Lo Wn =L TV = LT mle VE =T pN T à (2.71) 


On lit directement sur cette équation lexpression des composantes transformées du tenseur. On 
constatera qu’elles coïncident bien avec celles que nous avons obtenues plus haut. 
2.3.3 Vocabulaire et exemples 
Un tenseur de rang 2 est dit symétrique si: 
TRESS (2.72) 


On en déduit immédiatement T,, = Typ et TF, = T,”. On pourra donc écrire la forme mixte sans 
préciser l’ordre des indices, comme T#. Notons que la symétrie du tenseur n'implique pas légalité de 
T} et de TY (il n’est que d'examiner le cas des indices spatio-temporels pour s’en convaincre). 

h i q 
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Un tenseur de rang 2 est dit antisymétrique si: 
TSE EE, (2.73) 


Les termes diagonaux de ce tenseur T## sont évidemment nuls. On montre qu’un tenseur anti- 
symétrique peut se mettre sous la forme: 


0 az Qy az 
HvV ee — A+ 0 —b, by Ata 
PAS w È 0 ol (a,b) (2.74) 


—a; —by bz 0 


où a est un vecteur spatial et b un pseudo-vecteur (qui se transforme en l’opposé de son symétrique 
dans un changement de base comprenant une réflexion d’espace). Le couple champ électrique/champ 
magnétique obéissant à ces conditions, nous ne nous étonnerons pas que le champ électromagnétique 
s'exprime comme un tenseur antisymétrique de rang 2. 

Nous appellerons “trace” d’un tenseur de rang 2 la quantité T”, = T„”. Plus généralement, nous 
appellerons “contraction” d’un tenseur sur un indice une expression comme T#,?. La contraction 
d’un tenseur de rang k sur un indice est un tenseur de rang k — 2 (la trace étant une contraction d’un 
tenseur de rang 2, elle donne un tenseur de rang 0, c’est à dire un 4-scalaire). La contraction d’un 
tenseur de rang trois donne, pour sa part, un tenseur de rang 1, c’est à dire un 4-vecteur. 

Montrons, à titre d'exercice, que la contraction sur un indice d’un tenseur de rang trois se trans- 
forme bien comme un vecteur: 


DUO VE ETES 
RT 
BTT, (2.75) 


ce qui établit bien la propriété cherchée. 

Comme tenseurs, nous connaissons déjà le tenseur métrique. On pourra vérifier directement qu’il 
est bien invariant dans une transformation de Lorentz. Il s’agit d’un tenseur symétrique. Sa forme 
mixte est évidemment: gë = g”’gvp = ô}. Le symbole de Kronecker n’est donc que la forme mixte du 
tenseur métrique! La relation entre les formes contravariantes et covariantes g” gpp = ôi peut donc 
s’interpréter comme un simple abaissement d'indice. 

Notons à ce point que les opérateurs £ de changement de base ont toutes les caractéristiques 
de tenseurs et se comportent normalement vis à vis de l'élévation ou de l’abaissement des indices. 
En toute rigueur, nous ne devons pas les considérer comme des tenseurs. On sait bien, en algèbre 
linéaire, que les matrices de changement de base ne sont pas à proprement parler des opérateurs. On 
peut aussi s’en convaincre en s’interrogeant sur le sens physique d’un changement de base pour une 
transformation de Lorentz. 

Nous définirons finalement le tenseur de rang 4 complètement antisymétrique e“”P7. Parmi les 256 
éléments de ce tenseur, seuls sont non nuls ceux dont les indices correspondent à une permutation de 
(0,1,2,3). Si la permutation est paire, l’élément correspondant vaut +1. Il vaut -1 si la permutation est 
impaire. Il n’y a donc que 24 éléments non nuls dans €, 12 valant +1 et 12 —1. On a elPP9 = —€uvpo, 
puisqu'on abaisse toujours trois indices spatiaux dans cette opération. On a enfin e#”/°6,,,5 = —24 
(une somme de 256 termes qui nous fait apprécier à sa juste valeur l’élégance des notations d’Einstein). 


2.4 Dérivation et analyse vectorielle 


La dernière étape à franchir est de refonder, dans notre formalisme quadridimensionnel, l’analyse vec- 
torielle. Nous commencerons par redéfinir le gradient, pour généraliser ensuite aux autres opérateurs 
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différentiels. Nous verrons que des lois bien connues de l’électromagnétisme prennent une forme très 
simple en termes de ces opérateurs. Nous définirons enfin une intégration dans l’espace-temps et 
généraliserons les théorèmes de Stokes/Ostrogradski. 


2.4.1 Dérivation 


Nous pouvons définir, pour une fonction du 4-vecteur position d’un événement, la dérivation par 
rapport aux coordonnées contravariantes de l’événement: 


o 


PO re ` 


Il est évident que les 4 quantités 0, forment les quatre composantes covariantes d’un opérateur 
différentiel vectoriel qui généralise la notion de “nabla” à notre espace à quatre dimensions. Leur 
covariance est manifeste si nous examinons l'accroissement infinitésimal d’un fonction scalaire des z” 
pour un accroissement dg”: 


(2.76) 


df = ð f(z” )dx" . (2.77) 


df étant un scalaire et dz” un vecteur contravariant, à, est un “vecteur” covariant. Il se transforme 
donc comme tel dans une transformation de Lorentz: 


d'u = Ludo , (2.78) 


où les ð’ représentent les dérivées par rapport aux nouvelles coordonnées contravariantes. Cette loi de 
transformation peut aussi s'établir péniblement à partir des lois de transformation des composantes. 
On peut aussi définir la dérivation par rapport aux coordonnées covariantes: 


ee 


= —, 2. 
a (2.79) 


Ces opérateurs différentiels forment évidemment les composantes contravariantes d’un vecteur (comme 
on peut s’en convaincre en écrivant l'accroissement d’une fonction scalaire des coordonnées covari- 


antes). On a de plus 
o! = g” 0, , (2.80) 


généralisation aux opérateurs différentiels des lois d’élévation ou d’abaissement des indices. 


2.4.2 Analyse vectorielle 


On peut définir à partir des ô, des analogues des opérateurs de l’analyse vectorielle à trois dimensions. 
Si f est une fonction scalaire, 0, f, généralisant le gradient, peut s’écrire 


10f 
== 2.81 
ot = (42 vi) (2.81) 

s 1 of 
"f= |==,- 2.82 
ag = (1% -vi) (2.82) 

Si on considère un champ de 4-vecteurs A} (z”) = (a°,a), on peut définir sa divergence comme: 
1 3al 
HA — poA 

OPA, = A oT V-a, (2.83) 


qui n’est pas sans nous rappeler l’équation de conservation de la charge ou la jauge de Lorentz. 
L’analogue du rotationnel sera le tenseur de rang 2 complètement antisymétrique: 


OA’ — Ar. (2.84) 
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On pourra aussi écrire le rotationnel sous sa forme complètement covariante: 


ô Av — OrAp (2.85) 
Le “laplacien” de l’espace temps est la norme du vecteur ð”: 
D EN (2.86) 
H — 202 g L] ° 


et n’est pas autre chose que le d’alembertien [ ]. 

Nous pouvons ainsi réécrire de façon extrêmement simple quelques lois de l’électromagnétisme 
classique. L’équation de conservation de la charge s'écrit simplement ô „J“ = 0, en utilisant le 4- 
vecteur courant. 

Les équations de Poisson pour les potentiels peuvent se regrouper en 0,04" = uoJ”, à condition 
de regrouper les potentiels scalaire et vecteur en un 4-vecteur A” = (V/c, A). L’équation de Poisson 
prouve immédiatement que cette quantité est un 4-vecteur. On pourrait alors en déduire les lois 
relativistes de transformation des potentiels dans un changement de référentiel et, par dérivation, les 
lois de transformation des champs. Nous établirons plus simplement ces résultats dans les prochains 
chapitres. 

La condition de jauge de Lorentz s’écrit tout simplement ô, A” = 0. L'ensemble de ces relations 
prouve que l’électromagnétisme se coule de manière très naturelle dans le cadre mathématique de la 
cinématique relativiste. 


2.4.3 Intégration 


On peut définir une intégrale de volume dans l’espace-temps pour n'importe quel type de quantité 
par 


f dQ, (2.87) 


où dQ = cdtdxdydz est l’élément d'intégration dans l’espace temps dont nous avons déjà démontré le 
caractère scalaire. 

Une surface dans l’espace à trois dimensions est une variété à trois dimensions. On peut définir 
une intégrale sur ces surfaces (un flux) à condition de définir un 4-vecteur élément de surface dS#. 

Un élément de surface est un petit objet à trois dimensions. On peut le considérer comme sous- 
tendu par trois 4-vecteurs dz”, dy” et dz” (comme un petit élément de surface à deux dimensions est 
sous-tendu par deux vecteurs infinitésimaux). dS” doit être orthogonal à tout vecteur de l’élément et 
sa longueur doit être une mesure du “volume” de l’élément de surface. On peut obtenir dS” par une 
procédure d’orthogonalisation standard. On forme d’abord le tenseur de rang 3 dS#”? tel que: 


dx dy" dz” 
SPP | dx” dy” dz” (2.88) 
dx? dy? dz? 


L'élément de surface cherché s’obtient alors en contractant ce tenseur avec le tenseur de rang 4 


complètement antisymétrique: 
1 


dST — -gE dS pvp ; (2.89) 
dont on montre qu’il a toutes les propriétés requises. Le lecteur sceptique aura avantage à écrire 
explicitement le vecteur élément de surface pour un petit élément de volume purement spatial (qui est 
bien un élément de surface dans l’espace-temps). Il trouvera un 4-vecteur dont seule la composante 
temporelle est non nulle. Sa mesure est précisément le volume spatial de l’élément considéré. 

On peut établir pour les intégrales de surface un théorème généralisant le théorème de gauss: 


| AS, = JL 0,A" dQ, (2.90) 
S V 
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où V est un volume dans l’espace-temps et S sa surface frontière. L'intégrale de la divergence étendue 
à tout l’espace est donc égale au flux sur la “sphère de l’infini”#. Celui-ci est en général nul pour des 
champs physiques. 

On peut aussi définir une intégration sur des variétés à deux dimensions (que nous n’appellerons 
pas surfaces). L'élément d'intégration est un tenseur antisymétrique de rang 2 formé sur les vecteurs 
dx” et dy” sous-tendant l’élément d'intégration: 


dj" = dx" dy” — dx” dy” . (2.91) 


On peut enfin définir une intégrale curviligne sur une ligne d’univers. Le théorème de Stokes relie 
l'intégrale sur une variété à deux dimensions à l'intégrale sur son contour: 


J Adr" = Î df!” (OLA — 8p An) | (2.92) 


3Cette sphère de linfini est assez peu intuitive. Elle est formée de tous les points de l’espace à t = —o0 et de tout 
l’espace à nouveau à t = œo. Entre les deux, elle est formée à tout instant de tous les points à linfini dans l’espace (la 
“sphère de l'infini” habituelle de l'analyse vectorielle). 
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Chapitre 3 


Dynamique relativiste 


Après avoir jeté les bases d’une nouvelle cinématique, il nous faut bien sûr établir la nouvelle dy- 
namique. Nous commencerons par postuler une forme très simple pour l’action d’une particule libre, 
dont nous déduirons les équations de Lagrange (qui donnent trivialement un mouvement rectiligne 
uniforme). Nous en déduirons, de manière plus intéressante, l’expression relativiste de l’impulsion 
de la particule. Nous définirons alors la notion de force pour une particule en interaction. Nous 
n’irons pas beaucoup plus loin dans ce chapitre. Pour utiliser la notion de force, il faut en effet 
la relier aux causes du mouvement. C’est ce que nous ferons au prochain chapitre dans le cas de 
l’électromagnétisme, en “redécouvrant” l’expression de la force de Lorentz. Notons à ce point que 
toutes les forces phénoménologiques utilisées en mécanique classique (frottements, tensions.) n’ont au- 
cun sens en relativité (elles ne peuvent se transformer correctement dans un changement de référentiel). 
Notons également que la force de gravitation ne peut être traitée correctement que dans le cadre de la 
relativité générale. Nous conclurons ce chapitre par quelques brèves remarques sur le vaste problème 
des collisions de particules relativistes. 


3.1 Particule Libre 


Nous essayons ici de définir une action ou un lagrangien pour une particule relativiste libre. La con- 
dition d’extrémalité de l’action devrait alors nous donner la ligne d’univers suivie par cette particule. 

Pour que toutes les quantités que nous manipulons se comportent bien dans un changement de 
référentiel (on dit souvent qu’elles sont manifestement covariantes), il faut que l’action et le lagrangien 
soient tous les deux des 4-scalaires. Le temps sur lequel on intègre le lagrangien doit donc être lui 
aussi un 4-scalaire. De manière évidente, seul le temps propre T de la particule convient. Enfin, les 
bornes de l’intégration doivent être deux événements bornant la portion de ligne d’univers cherchée 
(et jouant le rôle de conditions aux limites dans les équations de Lagrange). On écrira donc: 


b 
s= Dars (3.1) 


ou encore: , 
1 
S=} | Las, (3.2) 
C Ja 


où ds est un intervalle infinitésimal sur la ligne d’univers: ds = cdr. 
Pour L, le choix le plus simple est une constante —a@, relative à la particule. Nous choisissons 
un signe moins et une constante positive. Ce choix conduira à un minimum pour l’actiont. On peut 


1On peut rendre l'intégrale du temps propre aussi petite que l’on veut en imaginant des mouvements à de très grandes 
vitesses entre a et b. En revanche, l'intégrale du temps propre est maximale si la particule se déplace à vitesse constante 
entre a et b. L’action, pour avoir un minimum, doit donc être opposée à l'intégrale du temps propre. 
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: XU(T+dT)+Gc(T+dT) 
N 
TT Gu(rrdr) 


\ so(1) dv 


dæt+êdo > xu(THdT) 
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Figure 3.1: Deux lignes d’univers joignant deux événements. D’une est la trajectoire de référence (en traits pleins), 
lautre une trajectoire infiniment proche (en pointillés). Les deux trajectoires coïncident pour les événements initial et 


final. La partie de droite schématise des éléments infinitésimaux correspondants des deux trajectoires. 


identifier aisément cette constante en imposant à notre action de coïncider avec l’action classique si la 
vitesse de la particule est petite devant c. En remarquant que dr = dt/y, on écrira: 


S =-a 1—v?/2dt= | (—a + av?/22)dt . (3.3) 
Jy J 


Le terme constant ne joue aucun rôle dans l’action classique. Pour que le terme en v? 


coïncide avec 
l'énergie cinétique, il faut que œa = mc?. Le lagrangien d’une particule libre est donc une simple 
constante: 


L= -me (3.4) 
et l’action s’écrit simplement: 


S= -me | dre -me | ds . (3.5) 


Nous allons maintenant établir, à partir de cette expression de l’action, les équations de Lagrange. 
Ce raisonnement est très proche de celui utilisé dans la première partie de ce cours pour établir 
les équations de Lagrange d’un système quelconque. Nous considérerons donc deux lignes d’univers 
légèrement différentes entre les événements a et b qui nous serviront de “conditions aux limites” (voir 
figure 3.1). Nous ne pouvons plus en effet spécifier, sans perdre l’invariance relativiste, de positions à 
un instant initial et à un instant final. L’une de ces trajectoires sera la trajectoire effectivement suivie, 
qui réalise un extremum pour l’action. Elle est paramétrée par le temps propre 7 de la particule. Les 
événements de cette ligne d’univers peuvent donc s’écrire z” (T). 

L'autre ligne d’univers s’écarte de la trajectoire de référence par des quantités infinitésimales. 
Les coordonnées spatio-temporelles de chaque événement sur cette ligne d’univers pourront s’écrire 
xl (r) + 6x! (r), où ôx” (T) est une quantité infinitésimale. Notons qu'avec ce choix d'écriture, la 
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trajectoire variée et la trajectoire de référence sont paramétrées par le même temps propre T. C’est 
en effet une condition importante pour pouvoir écrire les intégrales d’action avec le même élément 
différentiel. Notons que le temps propre est utilisé comme un simple paramètre. T n’est pas le temps 
propre sur la trajectoire variée (c’est précisément à la détermination de celui-ci que nous allons nous 
consacrer). 

Considérons un intervalle infinitésimal de temps propre dr (voir partie droite de la figure 3.1). Sur 
la trajectoire de référence, on passe de l’événement x” à z” + dx" avec dz” = (dx"/dr)dr. Sur la ligne 
d’univers variée, en revanche, on passe de l'événement z” + ôx” à x" + ôx” + dr” + dôr” avec dôr” = 
(dôx!/dr)dr = ô(dx"/dr)dr = dx”, l'accroissement de la vitesse étant manifestement la dérivée 
temporelle de l’accroissement. Dans toute la suite du raisonnement, nous traiterons les accroissements 
ô comme des infiniments petits d'ordre supérieur par rapport aux éléments d de trajectoire. L'action 
sur la trajectoire de référence est donc 


b b 
S= -me | ds = -me | \/ dz dat . (3.6) 


L’action sur la trajectoire variée s’écrit: 


b 
E | (dx, + ôde,)(dx" Toda. (3.7) 


En développant cette dernière expression au premier ordre non nul dans les petits accroissements, on 
obtient l’accroissement de l’action 


b H 
S+S = -me | ji S ds 
a ds? 
b 
RER | J deu pt 
a ds 


b 
-m f U ôd” 


b — dôr” 
„=m f Uu- £ (3.8) 


où nous faisons intervenir la 4-vitesse U, = cdx,,/ds de la particule. 
Pour obtenir les équations de Lagrange, nous pouvons transformer cette expression par une inté- 
gration par parties: 


b b b dU 
ôS = -m f U „ôdx" = —m [U „ôx"] + m f 02" dr ; (3.9) 


Le terme tout intégré est manifestement nul puisque les deux lignes d’univers coïncident sur les 
événements limites. La nullité de ôS ne peut être assurée pour tous les accroissements que si: 


L 
ai sf (3.10) 


ce qui constitue l’équation de Lagrange, nécessairement triviale, du mouvement de la particule libre. 

En fait, le principal intérêt de ce calcul ne réside pas dans cette équation que nous aurions pu obtenir 
en invoquant l’invariance galiléenne. Nous avons d’abord pris la mesure des difficultés mises en jeu 
dans un calcul variationnel en relativité (en particulier, nous avons du prendre garde de ne manipuler 
que des quantités 4-vectorielles ou scalaires). Ensuite, nous avons établi, en passant, l’équation (3.9) 
qui va nous permettre de déterminer les variations de l’action dans une variation du point d’arrivée, 
et donc d'établir la forme relativiste de l’impulsion. 
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3.2 Energie-impulsion 


Nous avions introduit naturellement l’énergie et l'impulsion en dynamique classique comme les dérivées 
temporelles et spatiales de l’action par rapport au point d’arrivée. La contrepartie relativiste en est 
manifestement le 4-gradient de l’action par rapport à l'événement b. Nous poserons donc: 


P, = 48 , (3.11) 


les dérivées s’entendant par rapport à la position de b. 

Pour estimer P,, nous considérerons deux lignes d’univers effectivement suivies par la particule, 
l’une (ligne d’univers de référence) connectant a et b, l’autre (variée) a et b+db. Le calcul de la variation 
de l’action suit alors celui effectué au paragraphe précédent. Les deux trajectoires sont paramétrées par 
le temps propre de la trajectoire de référence. La seule différence est que l’accroissement ne s’annule 
pas pour l'événement b: 6x"(b) = db. L’équation (3.9) est donc encore correcte. Comme les deux 
trajectoires sont des trajectoires effectivement suivies, elles correspondent à des vitesses constantes 
et le terme intégral est identiquement nul. En revanche, le terme tout intégré est non nul et vaut 
U „ôx” (b). On en déduit par simple comparaison que: 


P= mU, P = mU” , (3.12) 


un résultat pour le moins attendu. 

Penchons nous maintenant sur la signification physique des composantes de P”. On a bien sûr 
PH = (—(1/c)dS/dt, VS). Une simple comparaison avec la mécanique classique nous indique que la 
composante temporelle de P” est l’énergie mécanique € de la particule, alors que les composantes 
spatiales représentent la quantité de mouvement: 


P! = (£/c,p). (3.13) 


L'énergie et la quantité de mouvement apparaissent donc comme les composantes temporelles 
et spatiales d’un 4-vecteur. Elles doivent donc se transformer ensemble dans un changement de 
référentiel. Nous pouvons de plus identifier ces quantités à partir de l’expression de la 4-vitesse: 


E = me (3.14) 
p = myv (3.15) 


Commentons tout d’abord l'expression de l'énergie mécanique. Pour des mouvements à vitesse 
faible devant c, on peut développer le facteur y. On obtient alors: 


1 
E=me+ LL : (3.16) 


A une constante près, nous retrouvons donc bien l’énergie cinétique galiléenne. 

Si les énergies sont toujours définies à une constante additive près en mécanique classique, il n’en 
est pas de même en relativité. On ne saurait en effet ajouter une constante arbitraire à la composante 
temporelle d’un 4-vecteur en conservant une forme correcte pour les lois de changement de référentiel. 
La constante additive qui, ci-dessus, représente l’énergie mécanique d’une particule au repos: 


ED =mé, (3.17) 


doit donc avoir une signification physique. 
Si une masse au repos possède de l'énergie, cela indique qu’on peut, au moins sur un plan de 
9 7 
pur bilan d'énergie, transformer une certaine quantité de masse en énergie ou une certaine quantité 


2Remarquons que nous venons d'établir ce qui est sans doute la formule de physique la plus célèbre. 
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d'énergie en masse. Les applications les plus spectaculaires de ces conversions sont les créations 
et annihilations de particules élémentaires. Quand deux antiparticules s’annihilent en émettant de 
l'énergie sous forme de rayonnement électromagnétique, on a une conversion totale d’une certaine 
quantité de masse en énergie. Le phénomène réciproque, la création d’une paire particule/antiparticule 
à partir d’un rayonnement suffisamment énergétique, correspond à la conversion d’énergie en masse. 
Pour créer, par exemple, une paire électron/positron, il faudra au moins fournir une énergie 2mc’, 
soit 2 fois 511 keV. Cette notion de seuil de réaction joue un rôle essentiel pour l’analyse des collisions 
de particules. Notons à ce point que, si nous avons montré que de tels processus sont envisageables 
du point de vue du simple bilan énergétique, nous n’avons pas montré qu’ils pouvaient se produire. Il 
faut ajouter à ces conditions de bilan les règles de sélection qui indiquent quelles particules on peut 
effectivement créer dans une situation donnée. Ces règles ne peuvent s’obtenir que par une approche 
quantique qui est hors de propos ici. En dépit des conséquences très importantes de cette énergie de 
repos pour la physique des particules, nous n’évoquerons pas ce problème beaucoup plus avant ici, et 
nous renverrons le lecteur intéressé aux nombreux manuels qui couvrent ce sujet. 

La quantité de mouvement, de son côté, s'écrit donc myv. Au premier ordre en v/c, elle coïncide 
donc bien avec la quantité de mouvement galiléenne ordinaire. En revanche, pour des vitesses proches 
de celles de la lumière, la quantité de mouvement croît beaucoup plus vite que la vitesse (elle est en 
fait simplement proportionnelle à la célérité). Comme l'accroissement de la quantité de mouvement 
est manifestement relié à la force qui s’exerce sur la particule (nous anticipons quelque peu sur la 
suite de cet exposé), on retrouve qu’il est impossible d’accélérer une particule matérielle jusqu’à la 
vitesse de la lumière, puisqu'il faudrait lui communiquer une quantité de mouvement infinie. Notons 
enfin que, du point de vue de la quantité de mouvement, et dans une large mesure du point de vue de 
l’ensemble de la dynamique, “tout se passe comme si” la masse de la particule dépendait de la vitesse 
comme le facteur y. Cette approche, largement développée dans des ouvrages de vulgarisation, n’est 
bien sûr pas correcte. L’invariance relativiste impose que la masse de la particule soit un 4-scalaire, 
indépendant du référentiel. 

Notons, pour terminer ce paragraphe, un lien utile entre énergie et quantité de mouvement. Nous 
savons en effet que le module de la 4-vitesse est égal à c. On en déduit P,P” = m?c? et donc 


pe Em =E€?: (3.18) 


Examinons le cas d’une particule ultra-relativiste, dont la vitesse est proche de celle de la lumière. 
L'énergie E est alors très supérieure à l'énergie de repos Eo, et on peut négliger le terme m°c* dans 
l'expression précédente. On a alors simplement E€ = pc et on peut pratiquement, à une constante 
dimensionnelle près, confondre l’énergie et l’impulsion de la particule. 

Un exemple extrême de particule ultra-relativiste est une particule de masse nulle, comme le 
photon ou le neutrino (si la masse du premier est très certainement nulle, un petit doute théorique et 
expérimental subsiste pour le second). Si la vitesse de propagation de cette particule était inférieure 
à c, le facteur y étant fini, l'énergie de la particule serait nulle. Pour que de telles particules aient 
une énergie non nulle, il faut que leur vitesse de propagation soit la vitesse limite de la relativité 
(qu’on peut donc confondre à ce point seulement, en toute rigueur, avec la vitesse de la lumière). 
Par un simple passage à la limite, on voit donc que l'énergie et l’impulsion de la particule sont liées 
par € = pc. Dans le cas particulièrement important du photon, l’énergie est E = hv, où A est la 
constante de Planck et l'impulsion est donc, en module, hv/c. Si on y ajoute que l'impulsion doit 
avoir la direction du vecteur d’onde (nous verrons pourquoi à la fin de cette partie), on en déduit que 
l'impulsion spatiale du photon peut s’écrire p = Àk. 


3.3 Particule soumise à une force 


Cette section ne peut être à ce niveau qu'embryonnaire. Si la particule est soumise à des interac- 
tions qui modifient son mouvement, on pourra écrire l’équation du mouvement sous la forme d’une 
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équation de Lagrange à condition de connaître le lagrangien décrivant l'interaction. Le seul cas où 
nous pourrons effectuer cette démarche est celui de l’électromagnétisme que nous traiterons dans le 
prochain chapitre. En fait, aucune autre interaction ne peut être incluse correctement dans le cadre 
de la relativité restreinte à notre niveau. Tout d’abord, toutes les interactions phénoménologiques 
(contacts, ressorts.) n’ont plus de sens en relativité, ainsi que la notion de solide. Elles contiennent 
en effet toutes plus ou moins la notion d'interaction instantanée. Il est possible de formuler une hy- 
drodynamique relativiste, par exemple, mais au prix de grands efforts. Même la gravitation ne peut 
être en toute rigueur coulée dans ce cadre. Elle n’est décrite convenablement que dans celui de la 
relativité générale. 

En fait, nous ne pouvons ici qu’intuiter que la dérivée par rapport au temps propre de l'impulsion, 
G! = dP#/dr, jouera le rôle d’une force, qu’on pourra exprimer simplement, dans le cas de l’électro- 
magnétisme, en fonction de la vitesse de la particule et des champs (cette force ne sera autre que la 
force de Lorentz). Le module de l’impulsion étant constant, la force est nécessairement perpendiculaire 
à l'impulsion: G PF = 0. En termes de l'énergie et de la quantité de mouvement spatiale, on pourra 
écrire: 


GREEN, (3.19) 


On pourra poser f — dp/dt et définir ainsi la force spatiale, dérivée par rapport au temps ordinaire 
de la quantité de mouvement. L’orthogonalité de G, et de P” est simplement équivalente, comme on 
s’en convaincra aisément, au fait que €? — c?p° est une constante. 


3.4 Conservation de l’énergie-impulsion. Application aux collisions 


On peut montrer, comme en mécanique classique, que l’invariance dans une translation globale dans 
l’espace-temps implique que tout système isolé possède un 4-vecteur énergie impulsion qui est con- 
servé. Pour un ensemble de particules matérielles sans interaction, l’impulsion globale du système est 
simplement la somme des impulsions individuelles. Pour des particules en interaction (en particulier 
électromagnétique), la situation est moins simple. L’interaction, qui ne peut être instantanée, doit en 
effet être véhiculée par un champ. Ce champ, possédant une énergie, doit aussi posséder une quantité 
de mouvement et entrer dans le bilan de l'impulsion globale. L’analyse détaillée de la conservation de 
l'impulsion dans une telle situation est alors difficile. 

La conservation de l'impulsion permet néanmoins d'obtenir des renseignements précis sur les colli- 
sions de particules relativistes. Dans une telle collision, on considère en effet un état initial où les deux 
particules sont très éloignées et n’interagissent pratiquement pas. Après avoir interagi, les deux par- 
ticules s’éloignent à nouveau l’une de l’autre et on considère un état final où, à nouveau, l’interaction 
est négligeable. Même si on renonce à examiner ce qui se passe pendant l'interaction, on pourra écrire 
que l’impulsion globale initiale, qui est la somme des impulsions de particules incidentes, est égale à 
la somme des impulsions finales. On regroupe ainsi dans une même équation liant deux 4-vecteurs les 
lois de conservation de l’énergie et de l’impulsion qu’on écrit séparément dans une analyse classique 
de la collision. 

Pour illustrer très brièvement l’étude des collisions relativistes, nous traiterons deux exemples: le 
calcul d’un seuil de réaction et le cas de l’effet Compton. Ces deux exemples à eux seuls sont loin de 


3Si les particules sont chargées, un champ électromagnétique est associé à chaque particule avant et après la collision. 
Ce champ doit entrer en toute rigueur dans le bilan d’impulsion. En fait, quand on mesure la masse ou l’impulsion d’une 
particule chargée, on ne le fait jamais indépendamment du champ qui accompagne cette particule. La masse que nous 
mettons dans l’impulsion est donc une masse “habillée”, qui englobe effectivement la contribution du champ à l’inertie 
de la particule. Nous n’aurons donc effectivement pas à tenir compte des champs des particules libres dans notre bilan 
d’impulsion. Notons qu’avec une particule chargée ponctuelle, la différence entre la masse “nue” et la masse “habillée” 
de la particule est évidemment infinie. Ce n’est qu’au prix d’un calcul complètement quantique mené avec les techniques 
de renormalisation qu’on peut définir proprement la masse “habillée” de la particule. 
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couvrir toutes les applications de la conservation de la 4-impulsion à la physique des particules, mais 
ils permettent d'illustrer de façon simple des techniques et des concepts importants. 


3.4.1 Seuil de réaction 


La plupart des collisions réalisées dans les accélérateurs visent à produire de nouvelles particules. Il 
est clair que l’énergie cinétique incidente doit être suffisante pour que la réaction soit énergétiquement 
possible. Le seuil de réaction est précisément l’énergie cinétique à fournir aux particules en collision 
pour que la réaction soit énergétiquement possible. Ceci ne signifie pas nécessairement que la réaction 
se produise effectivement. Des règles de sélection quantiques ou une section efficace insuffisante peuvent 
faire que les produits ne soient jamais observés. 

Le calcul du seuil est complexe pour les réactions complexes. Nous ne considérerons donc que l’une 
des plus simples des réactions de création de particules: la création d’une paire proton/antiproton par 
collision de deux protons. L’équation de la réaction s’écrit: 


p+p—p+p+p+p. (3.20) 


L'énergie minimale pour que cette réaction puisse se produire correspond à une situation où toutes les 
particules finales seraient au repos. Elle est donc définie dans un référentiel où la quantité de mouve- 
ment totale est nulle. Pour tout système de particules matérielles, il existe un tel référentiel, appelé 
“référentiel du centre de masse” Rem. Il est l’analogue du référentiel barycentrique en mécanique 
classique. Dans Row, l'énergie minimale est donc 4mc? (les particules et les antiparticules ont même 
masse m). Dans ce référentiel, les deux protons incidents ont initialement des énergies égales et des 
quantités de mouvement opposées. L'énergie de chacun doit donc être 2mc? et son énergie cinétique 
mc. Le seuil de réaction, dans le référentiel barycentrique, est donc de mc? pour chaque particule, 
un résultat assez intuitif. 

Le problème est que l’énergie à fournir effectivement est celle définie dans le référentiel du labo- 
ratoire, qui ne coïncide pas nécessairement avec le référentiel du centre de masse. Ce n’est que dans 
le cas des anneaux de collision (LEP pour les collisions électron/électron, par exemple), que les deux 
projectiles sont de quantités de mouvement opposées et que le référentiel du laboratoire est aussi celui 
du centre de masse. 

Dans beaucoup d’expériences, plus anciennes, un seul des protons est en mouvement (le projectile) 
et l’autre (la cible) est immobile. On peut estimer le seuil de réaction dans ce cas. La première chose 
à faire est de déterminer les éléments de Rem par rapport au référentiel du laboratoire R. Nous 
noterons € et p l'énergie et la quantité de mouvement du projectile. Tous les mouvements s’effectuant 
sur laxe projectile/cible, nous n’écrirons que des quantités en projection sur cet axe. Il est clair aussi 
que la vitesse de Ram par rapport à R est selon cet axe. Le 4-vecteur énergie-impulsion total avant 
la collision s'écrit donc (£/c+ mc, p). De manière évidente la quantité de mouvement totale n’est pas 
nulle. 

Nous cherchons donc une transformation de Lorentz (paramètres 5 et y) telle que la nouvelle 
impulsion p' soit nulle. Il faut donc choisir: 

b= 


ia .21 
Etme’ 22 


ce qui définit le mouvement du référentiel du centre de masse. On peut alors écrire l’énergie totale 
disponible dans Rc en utilisant la même transformation de Lorentz: 


E! = (E + mc? — bpe) . (3.22) 


En y portant l'expression de 8 et en notant que £? — p?c? = m°c*, on a simplement: 


E = 2ymce . (3.23) 
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Figure 3.2: Diffusion d’un photon par un électron initialement au repos. Partie gauche: état initial. Partie droite: état 


final. Le photon est diffusé avec une fréquence modifiée et l’électron est éjecté. 


On peut enfin exprimer y en fonction de 8 puis de E et p: 


B 1 _ vVvVE+me 
VIF Vma ` 


L'énergie disponible dans Rc est donc simplement: 


E' = 1/2mce2(E + mc?) . (3.25) 


Le seuil de réaction s’obtient alors en écrivant que E’ doit être plus grand que 4mc?. Après quelques 
manipulations, on voit que le seuil s'écrit: 


(3.24) 


E> mÈ, (3.26) 


l'énergie cinétique du projectile devant être d’au moins 6mc?. On doit comparer ce résultat à celui 


obtenu quand le référentiel du laboratoire est aussi celui du centre de masse. Au lieu d’une énergie 
cinétique par particule de mc?, on a besoin d’une énergie 6 fois plus grande. Avec une puissance 
donnée d'accélérateur, il est donc, de beaucoup, préférable de travailler avec des collisions entre deux 
particules en mouvement. Ceci explique que pratiquement toutes les grandes machines sont maintenant 
des anneaux de collision. Le prix à payer est bien sûr que la densité du faisceau est très petite devant 
celle d’une cible solide: le taux de collisions est beaucoup moins grand que ce qu’on obtient en envoyant 
un faisceau unique sur une cible fixe. 


3.4.2 Effet Compton 


Notre second exemple sera l’effet Compton, la diffusion d’un photon de haute énergie par un électron 
initialement immobile (ou lié à un atome: les énergie mises en jeu dans les expériences sont telles, 
comme nous le verrons, que l’énergie de liaison d’un électron dans un atome est négligeable par rapport 
à l'énergie finale de l’électron diffusé). Les paramètre importants du problème sont représentés sur la 
figure 3.2. 

Sans restreindre la généralité, le photon de fréquence v et d'énergie hv est incident dans la direction 
de laxe Ox. Après la collision, l’électron et le photon sont diffusés dans des directions qui dépendent 
des détails de l’interaction. Toujours sans restreindre la généralité, nous pouvons supposer que les 
trajectoires finales de l’électron et du photon sont dans le plan Oxy. L’électron emportant de l’énergie 
cinétique, le photon perd nécessairement de l’énergie. Sa nouvelle fréquence sera notée v’. Nous 
chercherons seulement ici à calculer la nouvelle fréquence du photon en fonction de son angle de 


3.4. CONSERVATION DE L'ÉNERGIE-IMPULSION. APPLICATION AUX COLLISIONS 123 


diffusion 0. C’est en effet la seule quantité accessible dans les expériences: l’électron est rapidement 
diffusé et son énergie amortie par le milieu où se produit la diffusion. De façon très remarquable, la 
simple application de la conservation de l'impulsion relativiste permet d’expliciter ce calcul*. 

Les 4-impulsions du photon avant et après la collision seront notées P et P’. On notera de même 
Q et Q’ les impulsions initiale et finale de l’électron. En nous souvenant que la quantité de mouvement 
spatiale de l’électron est hv/c, nous pourrons écrire: 


P (hv/c,hrv/c,0), (3.27) 
P’ = (hv'/c,hv'/c cos0,hv'/c sin) (3.28) 
Q = (mc,0,0) (3.29) 
Q = (Elo). (3.30) 


Dans les équations précédentes, nous n’avons écrit que les composantes spatiales dans le plan Oxy. 
E et qx, qy représentent l'énergie et la quantité de mouvement de l’électron diffusé. Pour calculer # 
en fonction de 0, nous allons chercher à éliminer ces inconnues. La loi de conservation de l’énergie- 
impulsion s'écrit: 


P+Q=P' +Q. (3.31) 

On en déduit immédiatement: 
(P-P? = (Q-Q? (3.32) 
P? +P? -2P.P' = Q+Q°-2Q.Q'. (3.33) 


Le photon étant une particule de masse nulle, P? = P = 0. De plus Q? = Q? = m?c où m est la 
masse de l’électron. Enfin, dans le produit scalaire Q : Q’, le produit des composantes spatiales est 


nul et il ne reste que le produit des composantes temporelles: Q - Q' = —2mE. On en déduit: 
R?uv' 2 
z (1 — cos 0) = m(E — mc‘). (3.34) 


La simple conservation de l’énergie assure alors que: 
hv+mce =h +E, (3.35) 


d’où on déduit finalement 
AX — à = àe(l — cos 0) , (3.36) 


À = c/v et X = c/v étant les longueurs d’ondes associées au photon avant et après la collision. La 
longueur Ac, appelée longueur d'onde de Compton de l’électron, vaut: 

h =i 

à= — =2.10" m. (3.37) 

mc 
La très petite valeur numérique de cette quantité fait que l'effet n’est notable que pour des photons 
incidents de courte longueur d’onde, c’est à dire de très haute énergie. Pour des photons visibles, par 
exemple, la modification de fréquence due au “recul” de l’électron est tout à fait négligeable. Quand 
nous étudierons la diffusion de rayonnement par un atome nous négligerons complètement cet effet. 


#Notons que la mise en évidence de l'effet Compton et l'accord quantitatif avec la loi que nous allons démontrer 
a constitué, sans doute, une des premières preuves indiscutables de l’existence du photon. L'effet photoélectrique, s’il 
est parfaitement explicable en termes de photons, peut en effet être décrit dans une théorie semi-classique couplant un 
champ électromagnétique classique à un détecteur quantifié. 
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Chapitre 4 


Electromagnétisme relativiste 


Nous désirons traiter maintenant de façon relativiste l'interaction entre particules chargées par lin- 
termédiaire d’un champ électromagnétique. Nous pourrions bien sûr supposer connues les équations 
de Maxwell et montrer directement qu’elles s’insèrent sans difficultés dans un cadre relativiste. Nous 
allons en fait procéder d’une façon beaucoup moins directe, mais plus profonde. Nous allons chercher 
à écrire l'interaction relativiste non triviale entre des particules par l'intermédiaire d’un champ de 
vecteurs. En d’autres termes, nous allons tenter de construire, dans le cadre de la relativité, la 
théorie de champ la plus simple qui ne soit pas triviale. Nous postulerons pour cela la forme des 
actions associées aux particules et au champ. Nous verrons que ces formes sont en effet tout à fait 
naturelles. Nous déduirons alors de ces actions des équations de Lagrange qui décrivent la dynamique 
des particules couplées au champ et la dynamique du champ couplé aux particules. Nous constaterons 
enfin que ces équations ont la forme des équations de Maxwell. Nous aurons donc pu déduire les 
équations de Maxwell d’une approche lagrangienne très générale. 

Nous aurons montré également que l’électromagnétisme est la plus simple des théories de champ 
vectorielles dans le cadre de la relativité. Bien sûr, nous ne nous contenterons pas dans ce chapitre de 
réécrire des équations bien connues. L'écriture en termes de quantités explicitement covariantes nous 
fournira des résultats nouveaux, difficiles ou impossibles à établir dans le cadre de l’électromagnétisme 
classique. Nous établirons ainsi la transformation des champs électromagnétiques dans un changement 
de référentiel, nous isolerons des invariants scalaires formés à partir des champs, dont nous montrerons 
qu'ils ont une signification physique importante. Nous pourrons enfin établir des bilans d’énergie- 
impulsion pour le champ qui nous permettront de jeter une lumière nouvelle sur des phénomènes bien 
connus, comme la pression de radiation ou même la force de Coulomb électrostatique. 

Notre système sera donc constitué d’un ensemble de particules en interaction avec un champ 
représenté par un champ de 4-vecteurs. L’action totale pour ce système peut a priori se décomposer 
sous la forme: 


S= SParticules Libres + SChamp Libre + Sinteraction >» (4.1) 


OÙ SParticules Libres représente l’action des particules en l’absence de champ (une simple collection 
de particules libres si on néglige toute autre forme d'interaction), SChamp Libre représente l’action 
décrivant le champ seul, en l’absence de toutes particules. Enfin, Sinteraction représente l'interaction 
entre particules et champ: d’une part les particules sont la source du champ, d’autre part la présence 
du champ modifie la trajectoire des particules. 

Pour aborder ce problème, nous allons procéder en deux temps, comme on le fait souvent dans 
les exposés élémentaires d’électromagnétisme. Nous allons d’abord considérer une particule unique 
en présence d’un champ imposé. Nous supposons donc qu’un grand ensemble de particules crée un 
champ qui agit sur une particule test. Si cette particule “test” est suffisamment petite, elle ne modifie 
pas notablement le champ ni la dynamique des particules “sources”. Les seules variables dynamiques 
dans ce cas sont donc celles de la particule libre, les valeurs du champ étant des quantités imposées. 
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Nous pourrons alors écrire aisément les équations de Lagrange, dont nous verrons qu’elles redonnent 
l'expression attendue pour la force de Lorentz. Nous verrons en effet que le seul champ de vecteurs 
introduit (qui n’est autre que la version relativiste du potentiel vecteur) intervient dans la force sous la 
forme de son rotationnel, c’est à dire d’un tenseur de rang deux antisymétrique. Ce tenseur pouvant 
être exprimé à partir de deux champs de vecteurs, nous retrouverons que l’électromagnétisme est 
une théorie à deux champs. En écrivant les propriétés du rotationnel relativiste, nous obtiendrons 
des relations entre ces deux champs qui se trouveront coïncider avec le groupe des équations de 
Maxwell homogènes. Notons enfin que nous pourrons dès ce point établir la forme des changements 
de référentiels pour les champs. 

Dans un deuxième temps, nous considérerons un champ en interaction avec des particules dont 
la dynamique est imposée. Nous représenterons les mouvements de ces particules par des densités de 
charges et de courants et nous postulerons une forme simple pour SChamp Libre: Nous obtiendrons 
alors, comme équations de Lagrange, les équations de Maxwell faisant intervenir les sources. Nous 
aurons alors terminé notre programme: en combinant les équations décrivant la dynamique des par- 
ticules dans un champ imposé et les équations décrivant la dynamique du champ sous l’action de 
courants imposés, on peut, au moins en principe, résoudre tout problème d’électromagnétisme. La 
dernière partie de ce chapitre sera alors consacrée à l’exploitation de ces résultats. Nous y établirons 
en particulier les bilans d’énergie-impulsion pour le champ. 


4.1 Particule libre dans un champ imposé 


4.1.1 Equations de Lagrange 


Nous considérons donc ici une particule de masse m plongée dans un champ imposé. L’action décrivant 
la particule libre s'écrit simplement 


b 
SParticules Libres = -me | ds , (4.2) 
a 


où a et b sont deux événements décrivant les conditions aux limites imposées à la particule. En 
l’absence de champ, la ligne d’univers de la particule serait simplement la droite joignant a et b. 

Nous postulerons que le champ peut être représenté par un champ unique de 4-vecteurs que nous 
noterons A”(z”) = (V/c, A). Pour des raisons qui apparaîtront évidentes plus tard, nous nommerons 
le champ À “potentiel”. L’interaction entre le champ et la particule doit être représentée par l’intégrale 
d’une quantité scalaire sur la ligne d’univers entre les événements limites a et b. La quantité la plus 
simple non triviale que nous puissions former est donc: 


b 
Sinteraction = af Au dx}, (4.3) 
a 


où q est une quantité scalaire représentant l'intensité du couplage de la particule au champ que nous 
nommerons simplement “charge”. Dans l’expression de l’action d'interaction, il faut comprendre, 
comme au chapitre précédent, que la ligne d’univers de la particule est paramétrée par son temps 
propre T et que dz” est en fait égal à (dx!*/dr)dr. 

Nous pouvons tout de suite nous rassurer sur la pertinence de ce lagrangien d’interaction. En 
écrivant que (dx! /dr)dr = U”dr = Uldt/7, en particularisant pour un instant un référentiel R et en 
développant le produit scalaire, on met l’action d'interaction sous la forme: 


b 
Sinteraction = -4 | (V “y” A) dt , (4.4) 


a 


où v est la vitesse tridimensionnelle de la particule dans R. On retrouve bien là la forme du lagrangien 
d'interaction avec une particule chargée obtenu dans le premier chapitre de la première partie de ce 
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cours, à condition bien sûr d’assimiler la composante temporelle du potentiel au potentiel scalaire de 
l’électromagnétisme et ses composantes spatiales au potentiel vecteur. C’est à la justification détaillée 
de cette assimilation que nous allons procéder maintenant. 

Comme dans le chapitre précédent (on se reportera en particulier à la figure 3.1), on considère 
entre a et b la trajectoire effectivement suivie (trajectoire de référence) et une trajectoire variée de 
façon infinitésimale. Les deux trajectoires sont paramétrées par le temps propre de la trajectoire 
de référence et on se reportera au chapitre précédent pour une description des éléments différentiels 
importants. 

La variation de l’action de la particule libre s’obtient comme au chapitre précédent. En écrivant 
la variation de l'intervalle élémentaire et en se livrant à la traditionnelle intégration par parties, on 


trouve: kap 
ÒS Particule Libre = | "dr . (4.5) 
a T 
Calculons maintenant la variation de l’action d’interaction: 
b 
Ô STnteraction = -45 | Apud” 
a 
b b 
=g i GA,]dr" =q "i Auôda#, (4.6) 
a a 


où le premier terme représente la variation due au fait que la trajectoire variée n’échantillonne pas 

le potentiel aux mêmes points que la trajectoire de référence. Le deuxième terme représente pour sa 

part la variation de l’action due à la modification de géométrie de la trajectoire à potentiel constant. 
Traitons d’abord le deuxième terme. On a en fait 


b dôx” 
af Ai dr 


b 
[-qA6x41 + al (Star) ôx" . (4.7) 


b 
-4 f A,0dx! 


Le terme tout intégré de l’intégration par parties est identiquement nul, puisque les trajectoires 
coïncident aux extrémités. La parenthèse dans l'intégrale restante représente l’accroissement dA, 
du potentiel quand on passe d’une extrémité à l’autre d’un élément différentiel de la trajectoire de 
référence. Le potentiel étant une fonction de l’événement auquel il est estimé, nous pourrons écrire: 


dA, = 0, Ayda” . (4.8) 


Le deuxième terme s’écrit donc: 


b 
i f Ə A da” ôx" . (4.9) 


Revenons maintenant au premier terme. La variation 0.4, du potentiel quand on passe de la 
trajectoire de référence à la trajectoire variée s'écrit 0.4, = yA ðr”. Le terme a intégrer, après une 
permutation sans conséquences des indices muets, s'écrit donc 0,.4,0x#dx”. La variation de l’action 
d'interaction peut donc finalement s’écrire: 


b 
ÔSInteraction = al [3 A4 = ô A] ôx”dx” . (4.10) 


En remarquant finalement que, sur la trajectoire de référence, dz” = (dx”/dr)dr = U”dr, où U” est 
la 4-vitesse, on peut écrire la variation totale de l’action sous la forme: 


b fdP, 
= — -G H 4.11 
ôS f i A Sadr (4.11) 
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avec 


Gp = q [ð Av — A AU” . (4.12) 


Les équations de Lagrange s’obtiennent alors immédiatement. La variation de l’action ne peut 
s’annuler au premier ordre dans les écarts entre les trajectoires que si tous les coefficients des ôx" 
sont identiquement nuls. Les équations de mouvement s'écrivent donc: 


ain =G,, (4.13) 
la quantité G, n'étant autre que la 4-force que nous avions pressentie au chapitre précédent. Notons 
que cette équation 4-vectorielle contient aussi bien la variation de l’énergie de la particule que celle 
de sa quantité de mouvement. 

La force s'exprime en fonction du rotationnel du potentiel, qui est un tenseur de rang deux, 
antisymétrique, écrit ici sous sa forme complètement covariante. Nous appellerons tenseur champ ce 
rotationnel et nous poserons: 


F pv = pAr — Or Ap (4.14) 
La force à laquelle est soumise la particule s'écrit alors simplement: 
Gu = qF pU” (4.15) 


et n’est pas autre chose que la contraction du tenseur champ avec la vitesse de la particule. 


4.1.2 Tenseur champ électromagnétique 


F „v est par définition un tenseur antisymétrique de rang 2, le 4-rotationnel du potentiel (V/c, A). Il ne 
dépend donc que de six coordonnées indépendantes. Les trois coordonnées spatio-temporelles forment 
les composantes d’un vecteur spatial, alors que les trois coordonnées purement spatiales forment les 
composantes d’un pseudo-vecteur. 

On peut écrire les composantes spatio-temporelles sous la forme: 


Foi = oA; — 0:40 


1, Ai 

Neo. 
Ei 

Ft (4.16) 

en posant 
OA 
E=- — —. ; 

VV 5 (4.17) 


Nous nommerons bien sûr “champ électrique” le vrai vecteur spatial ainsi défini. 
Nous pouvons de même mettre les composantes purement spatiales du tenseur champ sous la 
forme: 


Fi? = -B, (4.18) 
F3 = By (4.19) 
Fə = -B,, (4.20) 


en introduisant le pseudo-vecteur “champ magnétique” 
B=VxA (4.21) 


De manière toute naturelle, notre théorie de champ décrite par un 4-vecteur potentiel s'exprime en 
fonction de deux champs et ressemble de plus en plus à l’électromagnétisme de Maxwell. 
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On peut écrire F sous forme matricielle: 


0 ste, Die: E;z/c 
abe 0. =p Bi 


= :22 
Ee 2 dei (2.22) 
Bio eB; Bz 0 
ou encore, sous forme complètement contravariante: 
0 —Ez/c¢ Elec 
Ez/c 0 -B B 
REE PE í és 4.2 
K Ey/c B, 0 —B; (4.23) 
E,fe -B, Bz 0 


L’invariance de jauge est contenue dans la définition même du tenseur champ électromagnétique 
en fonction du potentiel. L’équation du mouvement de la particule (qui a seule un sens physique non 
ambigu) est inchangée si nous ajoutons au 4-potentiel un 4-gradient arbitraire (il est aisé de vérifier 
que le 4-rotationnel d’un champ de 4-gradient est identiquement nul). La transformation “de jauge” 


An — An tôn, (4.24) 


où ® est un champ de 4-scalaires arbitraire, laisse invariante la dynamique. En exprimant cette 
transformation en termes des composantes spatiales et temporelles du potentiel, nous retrouvons la 
forme standard de la transformation de jauge: 


V — V+. (4.25) 


Pour lever l'ambiguïté sur le potentiel, nous pouvons imposer une condition de jauge supplémentaire. 
Pour respecter l’invariance relativiste, cette condition de jauge se doit d’être manifestement covariante. 
La plus naturelle, la “jauge de Lorentz”, est d'imposer la nullité de la 4-divergence du potentiel: 


OA =0, (4.26) 


qui s’écrit en termes des composantes spatiales et temporelles: 


1 dV 

—— +V-A=0. 4.27 

c2 dt 27) 
Notons que la jauge de l’électrostatique, ou jauge de Coulomb, V : A = 0, brise la covariance. Si elle 
peut être employée sans restriction dans un référentiel donné, elle est à proscrire quand s’imposent 


des changements de référentiel. 


4.1.3 Force de Lorentz 


Pour nous rapprocher encore de l’électromagnétisme sous sa forme classique, nous allons exprimer la 
force tridimensionnelle subie par la particule chargée dans un référentiel donné en fonction des champs 
électriques et magnétiques. En fonction du temps t dans le référentiel R, l’équation de la dynamique 
s'écrit: 
dP, _„dE/c dp 
Va Na & 
où € est l'énergie totale de la particule et p sa quantité de mouvement tridimensionnelle. En déve- 
loppant le dernier terme (qui peut s’écrire simplement comme un produit matriciel) et en isolant les 
composantes temporelles et spatiales, on trouve: 


) = qF pU” , (4.28) 


— =qE.v, (4.29) 
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où v est la vitesse de la particule dans R et 
dp 
dt 
On retrouve ainsi, dans un référentiel donné, la forme standard de la force de Lorentz. On trouve 


= qg(E + v xB). (4.30) 


aussi que la variation d'énergie est entièrement due au champ électrique. Bien sûr, dans ces équations, 
E et p sont des quantités relativistes (£ = mc? et p = myv). La dynamique de la particule est donc 
en général différente de la dynamique classique. 

Comme la force de Lorentz est la première force que nous ayons explicitée dans le cadre relativiste, 
nous allons, à titre d’application et d'exemple, étudier en détail le mouvement d’une particule chargée 
dans un champ magnétique ou électrique uniforme, statique. Nous verrons ainsi comment la nature 
relativiste du mouvement modifie la dynamique et nous pourrons jeter un regard nouveau sur la notion 
de vitesse limite. 


Champ magnétique uniforme 


Nous nous placerons, dans ce paragraphe et le suivant, dans un référentiel particulier R et nous 
abandonnerons donc la covariance manifeste. Nous considérerons le mouvement d’une particule dans 
un champ magnétique B uniforme et constant. 

Le champ magnétique ne modifiant pas l’énergie totale de la particule, le facteur y est une constante 
et l'équation du mouvement s’écrit simplement: 
dv 
F 
Elle est donc la même que dans le cas non relativiste, avec la simple substitution de la masse m par ym. 
En particulier, la trajectoire est une hélice admettant le champ magnétique pour axe, avec un rayon 
R = myv/qB où v est le module de la vitesse perpendiculaire au champ magnétique. la pulsation du 
mouvement circulaire uniforme dans le plan perpendiculaire à B (pulsation cyclotron) étant: 


_ 4B 
= 


ym gvxB. (4.31) 


We (4.32) 


S'il n’y a pas de différence qualitative entre le mouvement relativiste et le mouvement classique, le 
facteur y induit néanmoins des complications techniques dans les applications. Dans de nombreux 
types d’accélérateurs, un champ magnétique est utilisé pour confiner les particules au voisinage d’une 
trajectoire circulaire. Le facteur y fait que le rayon de ces trajectoires est, pour des particules ultra- 
relativistes, beaucoup plus grand que ce que prédit la mécanique classique. L’encombrement de ce 
type de dispositif est en partie dû à cet effet!. De plus, la fréquence des champs accélérateurs, qui doit 
être adaptée à la fréquence cyclotron, doit être ajustée pendant toute la phase d'accélération pour 
tenir compte de la variation de ce facteur relativiste. 

Notons que cette “contraction” relativiste de la fréquence cyclotron peut être mise en évidence 
même pour des électrons de très basse énergie. Dans une très spectaculaire série d'expériences, Hans 
Dehmelt et ses collaborateurs (Université de Seattle) ont étudié des électrons confinés dans un piège 
constitué d’un champ magnétique et d’un champ quadripolaire électrique (piège de Penning). Ils 
ont ainsi mesuré avec une précision remarquable, sur un électron unique, le célèbre “facteur gyro- 
magnétique anormal”, qui constitue un test sévère de l’électrodynamique quantique. Une des étapes 
de l’expérience est d’exciter, par un champ radiofréquence convenable, le mouvement cyclotron de 
l’électron. Dehmelt a pu observer que la fréquence de résonance cyclotron se déplace avec l’énergie 
de l’électron, conformément à la loi relativiste. Les énergies mises en jeu n’étant que d’une fraction 
d’électron-volt, on pourra juger de la sensibilité de l'expérience. 

1Un autre effet important limite la compacité des accélérateurs: plus une particule est accélérée, plus elle perd d'énergie 
par rayonnement. Nous discuterons de ce “rayonnement de freinage” dans un prochain chapitre. Pour des particules 


légères (électrons), cet effet est la principale limitation au rayon des accélérateurs. Notons aussi que les accélérateurs 
linéaires échappent à ces deux types de limitations. 
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Champ électrique uniforme 


Nous considérerons maintenant le mouvement d’une particule dans un champ électrique uniforme et 
constant. Pour simplifier l’algèbre, sans trop restreindre la physique, nous prendrons comme condition 
initiale une particule au repos. Le champ électrique étant par convention orienté le long de laxe Ox, 
il est évident que le mouvement s’effectue le long de cet axe. L’équation de la dynamique, projetée 
sur Ox, s’écrit alors: 
dyt 
dt 
Dans ce cas, bien sûr, l’énergie de la particule et donc le facteur y ne sont pas des constantes. On tire 
de cette équation immédiatement: 


=qE. (4.33) 


yi = —, (4.34) 


la valeur initiale de cette quantité étant nulle par convention. Nous poserons, pour alléger les notations, 
V = qEt/m (notons que V serait la vitesse de la particule si nous ne tenions pas compte des corrections 
relativistes au mouvement). On déduit alors de ce qui précède: 


TETEE — (4.35) 


V1+V2/e ? 


qui s’intégre aisément en 


ee 1+ (4) Ths (4.36) 
mc 


à condition de prendre x = 0 comme condition initiale. 
Pour des temps suffisamment petits, la vitesse de la particule est faible et on peut développer 
l'expression précédente au premier ordre en gEt/mc. On trouve alors 


= Lire | (4.37) 
2m 
mouvement uniformément accéléré de la dynamique classique. Aux temps longs, en revanche, x tend 
simplement vers ct: la vitesse de la particule tend vers la vitesse de la lumière, comme nous pouvions 
nous y attendre. On pourra montrer, à titre d’exercice, que la rapidité de la particule continue, pour 
sa part, à croître indéfiniment. La généralisation de ce calcul à trois dimensions ne pose aucune autre 
difficulté qu’algébrique. 


4.1.4 Changements de référentiels pour le champ 


La formulation explicitement relativiste du tenseur champ électromagnétique nous permet d’écrire 
sans difficultés la loi de transformation des champs dans un changement de référentiel. Nous aurons 
en effet: 

FRE (x = Conf) = Ch CV oF”? (2P) , (4.38) 


où les quantités primées sont relatives au nouveau référentiel. Le champ étant un champ de tenseur, 
il est une fonction de l’événement auquel il est estimé. Il faut bien sûr estimer le champ dans les deux 
référentiels pris au même événement et donc à des coordonnées spatio-temporelles qui se déduisent 
les unes des autres dans une transformation de Lorentz. Dans l'expression précédente, £ peut décrire 
n'importe quel élément du groupe de Lorentz le plus général. 

Nous préciserons maintenant les nouvelles valeurs du champ pour une transformation spéciale de 
Lorentz avec les conventions habituelles pour l'orientation des axes. Le calcul ne présente aucune 
difficulté de principe. Il faut toutefois prendre garde que le produit de “tenseurs” au second membre 
ne peut être calculé directement comme un produit de leurs trois représentations matricielles. Les deux 
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derniers termes correspondent en effet à une sommation sur deux indices colonne. On peut mettre le 
calcul sous la forme de produits matriciels standard en effectuant les transpositions nécessaires. Après 
quelques lignes d’algèbre, on arrive aux lois suivantes pour les transformations des composantes des 
champs électriques et magnétiques: 


E, = E (4.39) 
E} = 9(E,-c8B.) (4.40) 
E, = y(E.+c8B) (4.41) 
E: (4.42) 
1 E; 

B, = (B; +87) (4.43) 
B, = (8-67). (4.44) 


La transformation inverse s'obtient trivialement en changeant le signe de 87. Si, jusqu’alors, nous 
n'avions fait que retrouver les caractéristiques essentielles de l’électromagnétisme (il n’est peut-être 
plus utile de cacher que notre théorie de champ est bien l’électromagnétisme), nous obtenons ici, grâce 
à la formulation manifestement covariante, un résultat nouveau et fort important. 

On peut obtenir une approximation galiléenne à la loi de transformation des champs en ne gardant 
que l’ordre le plus bas en u/c dans les équations précédentes. On obtient alors, sous forme vectorielle: 


E = E-Bxu (4.45) 
Exu 

F = 

B' = B+ z (4.46) 


4.1.5 Invariants du champ électromagnétique 


On peut se poser le problème de former des quantités 4-scalaires à partir du tenseur champ. De telles 
quantités seront en effet conservées dans un changement de référentiel et constitueront des invariants 
du champ électromagnétique, fort utiles. Là encore, nous allons ajouter des résultats nouveaux à 
l’électromagnétisme standard. Nous ne chercherons pas systématiquement tous les invariants possibles. 
En fait, il wen existe que deux qui présentent un intérêt physique*. 
Formons d’abord la quantité: 
x (4.47) 


Cette quantité est manifestement un 4-scalaire et donc un invariant du champ. Ecrivons-la en termes 
des champs électriques et magnétiques pour en comprendre la signification physique. Interviennent 
des composantes spatio-temporelles et des composantes spatiales. La contribution des composantes 
spatio-temporelles est manifestement 2F0;F? (en effet les deux termes se déduisant l’un de l’autre 
par permutation des indices sont manifestement égaux en raison de l’antisymétrie de F) ou encore 
—2E?/c?. De même, les composantes spatiales font intervenir le carré scalaire du champ magnétique 
et on a enfin: 


2 
Fu F” = aB? — E?). (4.48) 


La quantité c? B? — E? est donc un invariant du champ. 
Donnons dès maintenant une application de cet invariant. Dans un référentiel R, considérons une 
onde électromagnétique plane. Les modules du champ électrique et du champ magnétique sont reliés 
?On notera que ces expressions ne sont pas invariantes par échange de y et z. Ceci n’est en rien contradictoire avec 
la symétrie du problème. Echanger ces axes revient à changer l’orientation de l’espace et donc le signe de B qui est un 


pseudo-vecteur. 
3On montrera en particulier que le déterminant de F”” est proportionnel au carré de notre second invariant 
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par E = cB. L’invariant du champ considéré est donc nul. Dans un autre référentiel, sans préjuger 
de la structure du champ”, on aura aussi E’ = cB’. 
Le deuxième invariant que nous allons former s’écrit: 


DE (4.49) 


où € est le tenseur complètement antisymétrique de rang 4. Rappelons rapidement que les éléments de 
ce tenseur valent +1 si les quatre indices sont une permutation paire de (0,1,2, 3), -1 si ils constituent 
une permutation impaire, 0 dans tous les autre cas. 

Il n’y a donc dans cet invariant que 24 termes non nuls. En fait, ces termes sont égaux 8 à 8. 
Si nous considérons une permutation u,v, p,o donnée, nous obtenons en effet un terme identique en 
échangeant u et v et/ou p et o (le tenseur antisymétrique et le tenseur champ concernés changent 
tous les deux de signe). Il y a donc au total quatre permutations de ce type et 4 termes identiques 
dans le développement de notre invariant. De plus, nous obtenons un terme identique en échangeant 
la première paire (u,v) et la seconde (p,o). En effet les termes en tenseur champ ne changent pas. 
Cette permutation des deux paires peut s’effectuer avec quatre permutations des indices. Elle ne 
change pas non plus la valeur du tenseur antisymétrique. Ensuite, les opérations de permutations à 
l’intérieur des paires ainsi permutées peuvent être effectuées sans changer la valeur. Nous introduisons 
ainsi quatre nouvelles permutations des indices donnant la même valeur. Au total, il y a donc 8 
termes identiques. Comme nous n’avons manifestement que 24 termes non nuls, il n’y a que trois 
termes différents, correspondant à un ensemble d’indices (par exemple 0,1,2,3) et aux deux manières 
d'échanger un terme de la première paire et un terme de la deuxième (dans ce cas 2,1,0,3 et 3,1,2,0). 
Le calcul de ces trois termes est alors trivial à partir de l'expression de F (€ valant +1 pour la première 
permutation et -1 pour les deux autres). On trouve finalement: 


POP Foo = -8E-B/c, (4.50) 


un résultat particulièrement simple. 

Le produit scalaire des champs électriques et magnétiques est donc invariant dans un changement 
de référentiel (bien sûr, cette invariance pourrait être établie, de manière assez pénible, directement 
à partir des lois de transformation). Donnons tout de suite une application de cette propriété. Dans 
un référentiel, considérons une onde plane. E et B sont alors perpendiculaires et leurs modules sont 
dans un rapport c. Dans un autre référentiel, ils sont donc encore perpendiculaires avec des modules 
dans un rapport c. 


4.1.6 Premier groupe d’équations de Maxwell 


Il nous reste à tirer parti du fait que le tenseur champ est le rotationnel du potentiel. A trois 
dimensions, cette propriété impliquerait la nullité de sa divergence. Nous allons maintenant établir 
la propriété correspondante à quatre dimensions. En écrivant cette propriété en termes des champs 
électriques et magnétiques, nous établirons des relations différentielles entre eux qui ne seront autres 
que les deux équations de Maxwell homogènes. Nous avons donc 


Fin = pAr — Or Ap : (4.51) 
On en déduit immédiatement: 
Our = 00 — Opr A, 
ð Fou = rôp Au — Orð À; (4.52) 
ô, Fop = Opr Ap — OLOA 


4Qui se trouve être également une onde plane. 
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En remarquant que les dérivées secondes croisées du potentiel sont égales, et en faisant la somme de 
ces trois équations, on obtient immédiatement: 


Cette équation est une conséquence directe du fait que le champ dérive d’un potentiel (c’est d’ailleurs 
une condition nécessaire et suffisante). 

Pour en comprendre la signification physique, écrivons cette équation en termes des champs 
électriques et magnétiques. Remarquons d’abord que, s’il y a a priori 64 équations possibles, seules 
4 ne sont pas triviales. Si les trois indices sont identiques, tous les F sont nuls et l’équation est un 
truisme. Si deux indices sont égaux (par exemple p = y), l'équation se réduit à 0,(F,, + Fv) = 0, 
une tautologie en raison de l’antisymétrie de F. L’équation n’est non triviale que si les trois indices 
sont différents et il ne reste donc que quatre équations indépendantes. 

La première correspond aux indices 1,2,3. Elle s'écrit: 


F23 + 03F12 + F31 =0, (4.54) 


soit encore 


V-B=0. (4.55) 
On montrera de même que les trois autres équations peuvent se résumer, sous forme vectorielle, par: 


0B 
E = ——, 4. 
V x à (4.56) 


Nous retrouvons donc ainsi les équations de Maxwell homogènes, qui sont équivalentes à l’existence 
d’un potentiel scalaire et d’un potentiel vecteur. 


4.2 Champ en fonction des sources 


Nous allons maintenant établir les équations qui relient le tenseur champ à ses sources, c’est à dire 
au mouvement des particules chargées. Dans le paragraphe précédent, nous nous intéressions au 
mouvement d’une particule unique. Les variables dynamiques du problème étaient donc la position 
et l'impulsion de la particule, situation habituelle en mécanique analytique. Dans tout ce chapitre, 
conformément à notre programme initial, nous supposerons imposées les dynamiques des particules 
(c’est-à-dire le courant) et nous ne nous intéresserons qu’à la dynamique du champ. Les variables 
dynamiques sont donc les valeurs du potentiel ou des champs en tous points de l’espace et à chaque 
instant. Il nous faudra donc adapter nos techniques variationnelles pour des variables dynamiques 
continues. En particulier, nous n’écrirons plus l’action en termes de lagrangien mais d’une densité de 
lagrangien que nous intégrerons sur tout l’espace et sur le temps pour obtenir l’action. Il nous faudra 
aussi réécrire l’action d’interaction comme l'intégrale sur tout l’espace d’une densité de lagrangien qui 
devra faire intervenir le 4-vecteur courant au lieu des positions et vitesses individuelles des particules. 

Le fait que nous traitions de plusieurs particules pose une difficulté technique immédiate. Pour 
obtenir les équations du mouvement d’une particule unique, nous avons intégré le lagrangien entre 
deux événements limites relatifs à cette particule. Nous ne pouvons définir de façon aussi simple 
les bornes d'intégration si nous considérons plusieurs particules qui ne partagent pas le même temps 
propre. Pour éviter toute difficulté ou le recours à un formalisme complexe nous éluderons le problème 
en nous plaçant, pour un temps, dans un référentiel donné R. Dans ce référentiel, le temps est bien 
défini, et nous pourrons intégrer la densité de lagrangien entre deux instants de référence. Nous 
n’aurons à manipuler que des intégrales d’espace et de temps sous forme habituelle. En abandonnant 
ainsi la covariance manifeste, nous risquons bien sûr d'obtenir des équations de Lagrange qui ne seraient 
pas des invariants relativistes. Nous verrons qu’il n’en sera heureusement rien: les équations que nous 
obtiendrons dans un référentiel donné s’écriront en termes de quantités explicitement covariantes, et 
seront donc valables dans n'importe quel référentiel. 
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4.2.1 Interaction champ-courant 


Nous allons, dans ce premier paragraphe, réécrire l’action d'interaction en termes du courant macro- 
scopique. Nous considérons un ensemble de particules chargées ponctuelles, dont le mouvement est 
imposé, que nous indicerons par un indice & entre parenthèses, pour éviter toute confusion entre cet 
indice qui numérote simplement les particules et un indice relativiste en position covariante. 

Le 4-vecteur courant J” peut donc s’écrire: J# = (cp,j), avec: 


p X 4@ôÛT — ria) (4.57) 


j = D Kanas — ria) ; (4.58) 


OÙ (a) F(a) €t V(a) Sont respectivement la charge, la position et la vitesse de la particule a. En 
généralisant l’action d'interaction introduite au paragraphe précédent, on écrira: 


ta 
Sinteraction = — 5 dla) I Aul2” (a) ) U" dTio) , (4.59) 


où T”(a) est la position de la particule œ. ta et tẹ sont les instants dans R où nous spécifierons 
les conditions initiales imposées au champ. T(a) est le temps propre de la particule œ, qui peut être 
paramétré lui même par le temps t du référentiel R dans lequel nous nous sommes placés. En raison de 
la “dilatation des temps”, dT{a) = dt/Y{(a) Où Va) est le facteur de dilatation relativiste calculé à chaque 
instant avec la vitesse de la particule a. En substituant cette expression dans l’action d’interaction et 
en explicitant enfin les composantes temporelles et spatiales, on trouve: 


to 
Sinteraction = af dt D Aulia) da), (a) V(a)) Ê (4.60) 


Notons que l’équation précédente, qui mélange notations d’Einstein et séparation des parties tem- 
porelles et spatiales constitue un abus de notations manifeste. Dans cette expression, le potentiel est 
à évaluer à l’endroit où se trouve la particule a. Pour mettre l'expression précédente sous la forme de 
l'intégrale d’une densité de lagrangien, on peut écrire: 


Ant) = f AV Aulet iE = rate) > (4.61) 


l'intégrale portant sur tout l’espace. On a alors: 


to 
Sinterection = — [dt | dV ta aovet — re) Ault) (462) 


t 


On reconnaît, entre les crochets, l'expression du 4-vecteur courant. On a donc finalement: 


tb 
SInteraction T Î dt J dV Līnteraction (4.63) 
où la densité de lagrangien d’interaction s'exprime par: 
Līnteraction = — À, JF G (4.64) 


Bien que nous ayons établi cette expression dans un référentiel donné, elle est manifestement un 
4-scalaire et est donc correcte dans tous les référentiels. 
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4.2.2 Lagrangien du champ 


Il nous faut maintenant postuler l’expression de la densité de lagrangien pour le champ libre. Nous 
allons choisir bien sûr une quantité qui soit manifestement un 4-scalaire. Il faudra de plus qu’elle 
soit invariante de jauge et donc qu’elle ne s’exprime en définitive qu’en fonction du tenseur champ et 
non du potentiel. Enfin, il faudra que ce soit une quantité quadratique dans le champ. Une densité 
de lagrangien est en effet homogène à une densité d'énergie qui doit être une fonction quadratique 
des variables dynamiques. Les deux invariants scalaires du champ que nous avions construits au 
paragraphe précédent remplissent tous deux ces conditions. Le second, équivalent au produit scalaire 
des champs électriques et magnétiques, ne semble pas convenir. On ne voit pas, en particulier, comment 
il pourrait décrire de façon convenable une situation purement électrostatique. Seule l’autre invariant 
est convenable et nous postulerons que la densité de lagrangien pour le champ libre peut s’écrire: 


1 
LChamp Libre = Sr , (4.65) 


où Lo est a priori une constante dimensionnelle telle que la densité de lagrangien ait la dimension 
d’une densité d’énergie. L’action totale intégrée entre les instants ta et tẹ s'écrit donc: 


tb 1 
S = SParticules Libres +] dt J dv [Au = sr A . (4.66) 


Dans cette expression, l’action des particules libres est une simple constante, puisque leur dynamique 
est imposée. 


4.2.3 Equations de Lagrange 


Pour établir les équations de Lagrange, nous allons considérer, entre les deux instants de référence 
ta et tp, deux histoires possibles du champ. D’une, qui sera la “trajectoire effectivement suivie”, 
autrement dit la solution des équations de Lagrange, correspondra, à chaque instant, au potentiel A. 
L'autre, infinitésimalement différente, correspondra au potentiel A, +04,. Pour assurer que le champ 
vrai et le champ varié obéissent aux mêmes conditions aux limites, nous imposerons à l’accroissement 
infinitésimal 0.4 de s’annuler, en tous points de l’espace, en ta et en tp. Nous allons ensuite exprimer la 
variation de l’action due à cette variation du potentiel en tous points de l’espace à chaque instant. En 
exprimant que cette variation est nulle au premier ordre dans l’accroissement, quel que soit celui-ci, 
nous obtiendrons une relation qui devra être vérifiée par le champ en tous points, à tout instant. Ce 
raisonnement généralise de façon évidente à un ensemble continu de variables dynamiques celui que 
nous avons déjà utilisé fréquemment pour un nombre fini de degrés de liberté. 

La trajectoire des particules étant imposée, le courant ne doit pas être varié et la variation de 
l’action totale, s'écrit donc: 


to 
== I dt J dV EAI + EEE mE”) , (4.67) 
ta 0 


On a de manière évidente: 


S(F p FU) = 26F y) FA? . (4.68) 


En exprimant ensuite 0F,, en termes du potentiel, on a: 
to 1 1 
s=- f'a fav jacana ppw gA = F 0,64, | | (4.69) 
ta 240 2410 


En permutant les deux indices muets du terme central, et en utilisant l’antisymétrie de F, on constate 
que les deux derniers termes dans l’intégrale sont égaux, et que donc: 


t 
s=- f'a fav jacana z FM DEA | (4.70) 
ta 0 
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Considérons le deuxième terme dans l'intégrale. A un facteur 1/c près, il s’agit de l’intégrale 
d’espace temps d’une quantité scalaire. Le volume d'intégration V est l’ensemble de l’espace à trois 
dimensions pris entre les instants ta et tẹ. En utilisant le théorème d’Ostrogradski pour les intégrales 
quadridimensionnelles, on peut réaliser sur ce terme une intégration par parties. En posant dQ = 
cdtdV on a en effet: 


Jde ruro,sa, = | Fw54,a5, - | an (o,F)64,, (4.71) 
y S y 


la surface S, à trois dimensions, étant la frontière du volume Y et dS, l’élément différentiel de cette 
surface. Cette surface est constitué de l’ensemble de l’espace pris à l'instant initial ta, de la sphère 
de linfini (une sphère de rayon R, dont on prend la limite pour R — ©) à tous les instants entre 
ta et tp et à nouveau de tout l’espace à l'instant final tẹ. L’accroissement du potentiel est nul aux 
instants limites en tous points de l’espace. Il est nul aussi, ainsi que tous les champs physiques, 
en tous points de la sphère de linfini à chaque instant. D’intégrale de surface dans l'expression 
précédente est donc identiquement nulle. Notons que nous retrouvons ici, sous une forme un peu plus 
complexe, l'intégration par parties à laquelle nous devons toujours procéder pour établir les équations 
de Lagrange. 
L’accroissement de l’action s’écrit donc finalement: 


t 
ass=- f'a fav [4 EOE] 8A. (4.72) 
ta 0 


Elle ne peut être nulle quel que soit l’accroissement du potentiel que si le champ entre crochets est 
identiquement nul. Les équations de Lagrange déterminant le champ en fonction des sources s’écrivent 
donc simplement: 

OFF = — uoJ” , (4.73) 


ou encore 
OF = pod” (4.74) 


en exploitant les propriétés de symétrie du tenseur champ. 

Dans tout ce raisonnement, nous avons abandonné la covariance manifeste en nous plaçant dans un 
référentiel donné. En revanche, les équations obtenues ne font intervenir que des quantités covariantes. 
Elles sont donc très générales, et valables dans tout référentiel galiléen. 

Nous pouvons maintenant écrire simplement ces équations en termes du potentiel. En reportant 
l'expression de F, nous avons: 


3p A — OO A = po” | (4.75) 


Si nous imposons au potentiel vecteur d’obéir à la condition de Jauge de Lorentz 0,4" = 0, le 
deuxième terme s’annule (on permutera les dérivées partielles pour le constater). L’équation aux 
potentiels s’écrit alors: 

o O A” = pJ” . (4.76) 


L'opérateur différentiel n’est autre que le carré de la norme du gradient: c’est le 4-laplacien ou encore 
le d’alembertien. 
4.2.4 Equations de Maxwell 


Pour mettre ces équations sous une forme plus familière, nous allons les exprimer en termes des champs 
électriques et magnétiques. La partie temporelle de cette équation vectorielle s’écrit en effet: 


ð F” = —hocp , (4.77) 


ou encore 
V -E = mep = p/e , (4.78) 
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en posant évidemment eooc? = 1. 
Les trois composantes spatiales se mettent de leur côté évidemment sous la forme: 


VxB— Ho f + 0% : (4.79) 


Les équations aux potentiels, pourvu que ceux-ci obéissent à la Jauge de Lorentz, se mettent sous la 
forme: 


ODA = mj (4.80) 
C = p/«, (4.81) 


où [ ] est l'opérateur d’alembertien (1/c?)02?/0t? — À, A étant le laplacien. 

Les équations de Lagrange décrivant le champ en fonction des charges sont donc bien les équations 
de Maxwell faisant intervenir les courants. Si on y ajoute les équations de Maxwell homogènes et les 
équations de Lagrange pour la dynamique des particules qui sont équivalentes à la force de Lorentz 
on peut déterminer complètement, au moins en principe, la dynamique couplée des particules et du 
champ. L’électromagnétisme de Maxwell, formulé en termes explicitement covariants, n’est donc que 
la théorie de champ la plus simple qui soit décrite par un champ de vecteurs. La structure à deux 
champs de la théorie de Maxwell est une conséquence immédiate de la nature antisymétrique du 
tenseur exprimant le rotationnel du potentiel. En fait, l’électromagnétisme de Maxwell, sous sa forme 
standard, est déjà écrit en termes explicitement relativistes ce qui le rend bien sûr incompatible avec la 
cinématique classique. La découverte des équations de Maxwell aurait été une conséquence immédiate 
de celle de la relativité. Mais il fallait bien les difficultés soulevées par l’électromagnétisme de Maxwell 
pour qu’on songe à mettre en doute la mécanique Newtonienne, parfaitement vérifiée par ailleurs. 


4.3 Energie-impulsion du champ 


Le champ électromagnétique doit posséder une densité d’énergie. Energie et quantité de mouvement 
n'étant que deux aspects du même 4-vecteur impulsion, il doit aussi exister une densité de quantité de 
mouvement pour le champ électromagnétique. Enfin, le champ électromagnétique obéissant, comme 
les particules matérielles, aux grandes propriétés de symétrie par translation dans l’espace ou dans 
le temps, ces densités d'énergie et d’impulsion, associées à celles des particules, doivent obéir à des 
lois de conservation. Nous allons, dans ce paragraphe, définir les densités d'énergie et d’impulsion 
et établir leurs équations bilan, c’est-à-dire étudier leur propagation. Nous pourrions partir de la 
formulation lagrangienne de l’électromagnétisme et appliquer les grandes lois de symétrie pour établir 
la forme de ces densités, comme nous l’avions fait pour une particule libre. Nous nous contenterons en 
fait de postuler la forme d’un tenseur rassemblant ces quantités, d'établir ses propriétés et d'identifier 
les différents termes. Cette approche est beaucoup moins satisfaisante qu’une approche à partir des 
premiers principes, mais elle est beaucoup plus compacte. 

Pour ce qui est du bilan d’énergie du champ électromagnétique, nous allons bien sûr retrouver des 
résultats bien connus sur la densité d'énergie du champ électromagnétique et sa propagation décrite 
par le vecteur de Poynting, dont le flux décrit le transport d'énergie à travers une surface. Nous ne 
ferons que rappeler très brièvement les propriétés essentielles de ces quantités. Pour la quantité de 
mouvement, nous obtiendrons en revanche des résultats nouveaux. Nous établirons la forme d’une 
densité (bien sûr vectorielle) de quantité de mouvement à trois dimensions. Le transfert d’impulsion 
à travers une surface s’écrira comme le flux d’une quantité tensorielle de rang 2. 


4.8.1 Tenseur énergie-impulsion 


Posons 1 1 
pran A TETN a LE (4.82) 
0 
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Nous nommerons, pour des raisons qui apparaîtront dans un instant, ce tenseur de rang 2, écrit ici 
sous sa forme doublement contravariante, le tenseur d’énergie impulsion du champ (“stress tensor” 
dans la littérature anglo-saxonne). Il s’agit d’un tenseur symétrique. La symétrie du deuxième terme 
du crochet est manifeste. Pour vérifier celle du premier terme, nous écrirons: 


gF APN = Fab, = F eF 
FFP = gF pF (4.83) 


On a donc bien 026 = 02°., 

Pour nous convaincre de la possible utilité de ce tenseur, nous allons l’écrire en fonction des 
champs électrique et magnétique. Le deuxième terme est le produit du tenseur métrique, diagonal, 
par l’invariant 2(B? — E?/c?), densité de lagrangien du champ électromagnétique. Le premier terme 
fait intervenir F aF AB qui se calcule comme un produit matriciel ordinaire. L'action du tenseur 
métrique est de changer le signe de toutes les lignes ayant un indice spatial dans la représentation 
matricielle obtenue. En regroupant avec le second terme et après quelques manipulations élémentaires, 
on peut écrire le tenseur énergie-impulsion sous la forme: 


u He. 17e: 7e 
Is/Cc 
CES Dan | 4.84 
T/c (T) R 
Ile 
où A j 
E B 
pepe (4.85) 
2 240 
et GE 
rer (4.86) 
Ho 


On reconnaîtra bien sûr ici la densité d’énergie électromagnétique et le vecteur de Poynting. 
T est un tenseur purement spatial de rang 2, que nous nommerons “tenseur de Maxwell”. L’ex- 
pression de ses composantes est: 


E? 
Taz = €Q Bas = E;E; 


1 
+ — 
Ho 


B2 
zA m8, (4:87) 


où les 6;; sont simplement les symboles de Kronecker. Notons ici que nous faisons une entorse sérieuse 
à nos conventions de notations. Quand il nous arrivera de manipuler une quantité, vectorielle ou 
tensorielle qui soit uniquement relative à l’espace ordinaire à trois dimensions, nous placerons tous les 
indices en position basse, en appliquant donc avec précautions la règle de sommation sur les indices 
répétés. Notons enfin que pour un tenseur spatial les composantes complètement contravariantes et 
complètement covariantes coïncident. Nous allons interpréter plus tard la signification physique de ce 
tenseur. 


4.8.2 Lois de conservation. Interprétation 


Si 0 est associé à la propagation de l'énergie et de la quantité de mouvement, il doit vérifier des 
équations locales de conservation qui font intervenir sa divergence (on se souviendra de l’équation 
locale de bilan d'énergie qui fait intervenir la dérivée temporelle de u et la divergence de IT, qui sont 
rassemblées dans la 4-divergence de la première ligne de 4). Nous allons donc calculer le 4-vecteur 


3ab P (4.88) 
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En remarquant que les tenseurs métriques ne se dérivent pas, et que leur seule action est d’élever 
l’indice des dérivations, on met ce terme sous la forme: 


8408 = = jor (Fpa F>) + ToP (FaF™®)] | (4.89) 


Le dernier terme peut s’écrire: 

(3P F ua) FH + F OP FHA (4.90) 
Ces deux termes sont manifestement égaux (il suffit d’élever et d’abaisser les mêmes indices pour 
passer de l’un à l’autre). En développant également le premier terme de la divergence, on a donc: 


ab? = = CS FF AOF OF ZFA Pe] . (4.91) 
0 


Le premier terme dans le crochet peut se transformer en utilisant les équations de Maxwell OF, = 
oJ x. Après une transformation triviale, on a donc: 


1 
PR Se A (4.92) 
0 


où nous avons artificiellement séparé un terme en deux. Les deux derniers termes du crochet peuvent 
s'écrire —0 FP. = 9 FH en utilisant les équations de Maxwell homogènes. On a finalement: 

1 

Zaa = Ex [OFF + E (4.93) 

Ho 
Le second membre de cette équation est la contraction d’un tenseur antisymétrique en u, À avec un 
tenseur de rang 3, symétrique en u, À. Cette contraction est manifestement nulle. En écrivant le 
tenseur de rang 3 K4*P, on a en effet F pK HAB F uK AHB puisque les noms des indices muets sont 
indifférents. De plus, en raison des propriétés de symétrie des tenseurs, ces deux termes égaux sont 
opposés. Ils sont donc bien nuls. Finalement, on a 


3ab l = -FJ , (4.94) 
une équation 4-vectorielle. Pour en interpréter la signification physique, nous allons en écrire séparé- 
ment la composante temporelle et les composantes spatiales et exprimer ces quantités en fonction des 
densités d’énergie, vecteur de Poynting et tenseur de Maxwell. 


Composante temporelle: conservation de l’énergie 


La composante temporelle 8 = 0 s'écrit simplement: 


DO = -FJ . (4.95) 
Il est facile de vérifier que F°àJ, = j-E/c. En regroupant les termes, on trouve l'équation scalaire: 
ð 
j E+ +V- I0. (4.96) 


Nous retrouvons ici l'équation de conservation de l’énergie électromagnétique que l’on établit dans les 
cours élémentaires à partir des équations de Maxwell. Rappelons que j - E est la densité de puissance 
cédée par le champ à la matière’. On peut écrire une équation bilan globale en intégrant léquation 
précédente sur un volume VY bordé par une surface fermée S. On a alors: 


fi Eart +f maso, (4.97) 
v dt S 


où U = fy u est l'énergie électromagnétique totale dans le volume V. On trouve donc que la dérivée 
de l'énergie électromagnétique par rapport au temps est égale à l’opposé de la puissance totale cédée 
à la matière plus le flux entrant du vecteur de Poynting à travers S. Le vecteur de Poynting décrit 
donc bien le transport d'énergie électromagnétique. 


5Cette expression est, comme nous l’avons vu plus haut, correcte même si le mouvement des particules est relativiste. 
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Composantes spatiales: conservation de la quantité de mouvement 


En remarquant que F*àJ, = -[pE;+(jxB);] = —f; n’est autre, au signe près, que la composante i de 
la densité de force de Lorentz f, on met les composantes spatiales de notre équation de conservation 


sous la forme: 
dg 


T LOS D (4.98) 
où la notation V : T désigne le champ de vecteurs 0;T;;. Nous avons posé ici 
IT 


Pour dégager plus précisément le sens physique de cette équation, nous l’intégrerons, comme dans 
le cas de l’énergie, sur un volume VY bordé par une surface fermée S. On obtient alors: 
dPm d 


G 
Re -dS =0 4.100 
dt ++ LT í ( ) 


où la notation “produit scalaire” T -dS désigne la contraction du tenseur 7 avec le vecteur élément 
de surface. Nous avons posé: 
dP 
u= | f. (4.101) 
y 


dt 
Ce terme représente donc la variation temporelle de la quantité de mouvement de toutes les particules 
matérielles contenues dans V. Il est alors facile d'interpréter le terme dG/dt avec 


é= i g (4.102) 


comme la variation dans le temps de la quantité de mouvement totale du rayonnement électromagné- 
tique. Le champ g représente alors simplement la densité locale de quantité de mouvement du champ. 
Le bilan de quantité de mouvement apparaît alors de manière transparente si nous interprétons le 
dernier terme de l’équation (4.100) comme la quantité de mouvement sortant par unité de temps du 
volume V. Cette quantité de mouvement, vectorielle, apparaît bien comme le flux à travers S d’une 
quantité tensorielle. 

Nous venons bien d'établir ici le bilan de quantité de mouvement pour l’ensemble du champ et des 
particules chargées. Notons que, comme dans le cas du bilan d'énergie, on peut établir cette équation 
bilan à partir des équations de Maxwell et de la force de Lorentz. On pourra s’en convaincre aisément 
à titre d'exercice. Il suffit d'écrire la densité de force de Lorentz f en remplaçant p et j par leurs 
expressions en termes de E et B extraites des équations de Maxwell. Des manipulations algébriques 
peu agréables permettent alors de mettre le résultat sous la forme de la somme d’une dérivée partielle 
par rapport au temps et d’une divergence de quantité tensorielle. Une simple identification redonne 
alors les équations précédentes. 

Notons que la quantité de mouvement du champ électromagnétique est simplement, à un facteur 
dimensionnel près, le vecteur de Poynting qui décrit le déplacement de l’énergie électromagnétique. 
Nous pouvons, qualitativement, comprendre ce résultat en termes de photons. Nous avons déjà évoqué 
le fait que le rayonnement se comporte tout autant comme le phénomène ondulatoire que nous traitons 
ici que comme un flux de particules de masse nulle, d'énergie hv, où h est la constante de Planck et 
v la fréquence du rayonnement que nous supposerons pour un moment monochromatique. Le vecteur 
de Poynting décrit alors le flux de photons. Chaque photon se déplaçant à la vitesse c, la densité 
numérique de photons N devra être de l’ordre de (1/hv)Il/c (nous préciserons cette discussion très 
qualitative au prochain paragraphe dans le cas très simple de londe plane). L’impulsion de chaque 
photon (de masse nulle) étant hv/c, la densité d’impulsion est Nhv/c = Il/c?. On retrouve bien 
l'expression de g. 
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Figure 4.1: La force de Coulomb entre deux charges ponctuelles par le bilan de quantité de mouvement. Deux charges 
opposées sont disposées symétriquement par rapport au plan z2Oy. Le champ résultant est, sur ce plan, parallèle à Ox. 


On établit le bilan d’impulsion dans le demi-espace x > 0, limité par la surface S. 


4.8.3 Applications 
Un problème d’électrostatique 


Nous allons appliquer les bilans d’énergie-quantité de mouvement à quelques situations simples. Nous 
allons d’abord montrer que l’équation bilan de quantité de mouvement contient simplement la force 
de Coulomb. Ce calcul montre que ces équations bilans peuvent présenter un intérêt en dehors des 
phénomènes purement propagatifs. La figure 4.1 illustre notre problème. Deux charges q et —q sont 
situées sur l’axe Ox en —a et a respectivement. Il n’échappera à personne que le calcul direct de la 
force de Coulomb entre ces particules ne présente aucune difficulté. Nous allons aborder ce problème 
par une voie un peu plus difficile. Ecrivons l’équation bilan de quantité de mouvement pour le volume 
V correspondant au demi-espace x > 0. Dans tout ce volume, le champ magnétique est nul. La densité 
de quantité de mouvement du champ est donc nulle. La variation de la quantité de mouvement de la 
matière, dP»/dt, est simplement celle de la charge —q et coïncide avec la force de Coulomb F subie 
par cette charge. Notons que le système de charges en l’absence d’autres forces n’est manifestement 
pas en équilibre. On peut donc écrire la force de Coulomb sous la forme: 


F= -f TdS. (4.103) 


La surface S bordant le volume Y est simplement constituée du plan x = 0 et d’une demi sphère à 
linfini. Le champ total étant à grande distance celui d’un dipôle, il décroît avec la distance R comme 
1/R$. Le tenseur de Maxwell, proportionnel au carré du champ, décroît comme 1/R$. L'intégrale sur 
la demi sphère de linfini est donc nulle. Sur le plan médiateur, le champ électrique est dirigé selon 
u,: E = E(p)us. Son module à une distance p de laxe vaut E(p) = (q/2reo)a/(a? + p?)?/2. Il est 
facile alors de montrer que, dS étant orienté selon x, la seule composante du tenseur de Maxwell qui 
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joue un rôle est Tex = —eoE(p)?/2. Le flux de T sur S se calcule alors par une intégration triviale 
en coordonnées polaires. On en déduit la force de Coulomb, orientée selon —x, dont le module a bien 
sûr la valeur requise. Cet exercice facile d’électrostatique nous fait comprendre l'intérêt des équations 
bilans d’impulsion, même dans un cas où il n’y a pas d’effets propagatifs. 


Cas de l’onde plane monochromatique 


Nous allons maintenant écrire les bilans d'énergie et de quantité de mouvement dans le cas beaucoup 
plus important de l’onde plane. Nous allons en particulier pouvoir préciser nos interprétations en 
termes de photons. 

Nous considérons donc une onde plane monochromatique, polarisée linéairement. Elle se propage 
selon Oz, le champ électrique est aligné selon Ox. La pulsation de l’onde est w. Les champs électriques 
et magnétiques s’écrivent donc: 


E 


Eou, cos(kz — wt) (4.104) 
B 


E 
uy cos(kz — wt) (4.105) 


avec w = ck Le vecteur de Poynting est alors dirigé selon u, (lénergie se propage manifestement dans 
cette direction) et vaut: 
II = eoc Ef cos? (kz — wt)u, . (4.106) 


On ne s'intéresse souvent qu’à la moyenne temporelle de ce vecteur (les oscillations à la fréquence 2w 
n'étant pas détectables, le plus souvent, dans des mesures énergétiques). On a bien sûr: 


Il 


1. (4.107) 


La valeur moyenne de la densité d’impulsion est donc: 


u, (4.108) 


La densité d'énergie électrique est égale à la densité d'énergie magnétique. La densité d’énergie 
électromagnétique instantanée s’écrit donc: 


u = eo Eê cos? (kz — wt) , (4.109) 
et sa valeur moyenne vaut: 
eo ER 
u= (4.110) 
2 
On remarque immédiatement que 
T 
u = — 4.111 
u z (4.111) 
PES (4.112) 
c 


Nous pouvons comprendre quantitativement ces relations importantes en termes de densité numérique 
de photons. Si nous avons N photons par unité de volume, la quantité moyenne d’énergie traversant 
par unité de temps une surface d’aire S perpendiculaire à l’axe de propagation sera égale d’une part 
à IIS et d’autre part à ucS (en un laps de temps dt un “volume” d’onde égal à cdtS “traverse” la 
surface). On obtient ainsi la première relation: & = l/c. La densité numérique N de photons est 
N = %/hw. La densité d'impulsion NÂw/c est donc bien T/c. 
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Exprimons enfin le tenseur de Maxwell. Les écritures ne présentent aucune difficulté. On trouve 
que seule la composante 7,, est non nulle et vaut précisément u (en valeur instantanée et donc 
aussi en valeur moyenne). L’onde transmet donc dans la direction z une quantité de mouvement 
elle aussi alignée dans la direction z. Précisons ce bilan d’impulsion en considérant le cas d’un di- 
aphragme parfaitement absorbant d’aire S perpendiculaire à l’axe Oz. Le seul effet de ce diaphragme 
est d’annuler l’onde incidente immédiatement derrière lui (à plus grande distance, la diffraction par 
les bords du cylindre jouera un rôle et le champ électromagnétique ne sera pas exactement nul dans 
l’ombre géométrique du disque. 

Considérons donc un volume VY limité par une surface S entourant immédiatement le diaphragme. 
En première approximation, on pourra considérer que le champ est nul sur la “face arrière” de S 
et que le champ sur la face “avant” est celui de l’onde plane non perturbée (c’est sans doute une 
approximation correcte si le diaphragme est parfaitement absorbant. C’est grossièrement faux s’il est 
réfléchissant. Nous laissons au lecteur le soin d'examiner ce dernier cas). 

Ecrivons le bilan de quantité de mouvement pour le volume V. Comme le volume de V, qui entoure 
exactement le diaphragme est négligeable, la variation de la quantité de mouvement du champ est 
nulle. La variation de la quantité de mouvement de la matière doit être égale à la force F subie par le 
diaphragme. Cette force est donc égale à l’opposé du flux sortant du tenseur de Maxwell. Le flux est 
nul partout sauf sur la surface avant du diaphragme. Il vaut alors simplement —uS. La force subie 
par le diaphragme est donc finalement 

F = uSu, . (4.113) 


L’onde électromagnétique exerce donc sur le diaphragme une pression p (la force est proportionnelle 
à la surface). Cette pression p est égale à la densité d'énergie du champ: 


(4.114) 


S) 
Il 
g 


(cette relation tient entre valeurs instantanées, mais n’a d'intérêt qu'entre valeurs moyennes). En 
quelque sorte, nous écrivons là une équation d’état pour le rayonnement électromagnétique. On 
pourra se convaincre, là encore, que cette pression s’interprète en termes de collisions inélastiques des 
photons incidents avec le diaphragme. 

Cette pression de radiation a de nombreuses manifestations. Notons tout d’abord qu’elle est en 
général assez faible. Si nous considérons, par exemple, un faisceau laser transportant 1W sur une 
surface de 1 mm?, le vecteur de Poynting moyen vaut évidemment 105 W/mm?, la densité d’énergie et 
donc la pression valent 3.107 Pa. Même si la puissance est importante, la densité d'énergie est petite, 
parce que la vitesse de propagation est grande. Si faible soit elle, la pression de radiation permet de 
faire léviter des particules suffisamment petites dans un faisceau laser. Le poids d’une particule de 
rayon r est en effet proportionnel à r° alors que la force de pression de radiation varie comme r°. Pour 
r suffisamment petit, la pression de radiation l’emporte. En appliquant ce raisonnement à la pression 
de radiation du rayonnement solaire, on trouve que des particules suffisamment petites doivent être 
éjectées du système solaire. La taille limite se trouve être indépendante de la distance R au soleil. 
Pression de radiation et force de gravitation varient en effet toutes deux comme 1/R?. Avec l’ordre 
de grandeur de la puissance du rayonnement solaire (1.5 kW/m?) et de l'accélération de pesanteur 
solaire au niveau de la terre (107? g), on trouve que des particules de rayon inférieur à 0.1 um sont 
éjectées. Notons que, dans un modèle réaliste, il faudrait tenir compte aussi des collisions avec les 
particules chargées constituant le “vent solaire”. 


Partie III 


Propagation, diffraction 
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Introduction 


Nous aborderons dans ce chapitre un certain nombre de propriétés liées à la propagation des champs. 
Un des aspects physiquement les plus intéressants et les plus riches d'applications concerne les phéno- 
mènes de diffraction (transmission des champs électromagnétiques à travers des structures dont la taille 
n’est pas très grande devant la longueur d'onde). Un des objets essentiels de cette partie du cours 
sera donc de donner une assise rigoureuse à la théorie de la diffraction. Nous allons voir comment 
et au prix de quelles approximations on peut justifier les propriétés de la diffraction telles qu’elles 
sont enseignées dans les classes élémentaires. Nous aurons, pour cela, à utiliser des techniques très 
puissantes, comme celle des fonctions de Green, qui, sous d’autres formes ou d’autres noms, sont très 
généralement utilisées en physique. 

Cette partie sera divisée en trois chapitres principaux. Dans le premier, nous établirons de façon 
rigoureuse la solution des équations de Maxwell en termes de potentiels retardés. Nous établirons 
pour ce faire la forme de la fonction de Green du champ électromagnétique, réponse des équations de 
Maxwell à une perturbation impulsionnelle, spatialement et temporellement. Nous intuiterons d’abord 
la forme de cette fonction en n’utilisant que des arguments physiques simples avant de la retrouver 
de façon rigoureuse. Ce chapitre fera un usage extensif de l’intégration de fonctions complexes, avec 
laquelle il est donc préférable d’être déjà familier. 

Dans le deuxième chapitre, nous utiliserons cette solution et la fonction de Green du champ 
pour démontrer une formule rigoureuse (formule de Kirchhoff) relative à la propagation du champ 
électromagnétique. Nous utiliserons ensuite cette formule pour essayer de traiter un problème de 
diffraction générique, la transmission d’un champ à travers une ouverture dans un écran opaque. 
Nous verrons qu’on ne peut en général traiter le problème de façon rigoureuse. On devrait pour cela 
tenir compte des courants induits dans l’écran, ce qui est impossible. Nous ferons donc une approx- 
imation (qui est équivalente au principe de Huygens des sources secondaires) a priori très grossière 
mais très réaliste dans des problèmes concrets. Nous montrerons alors que le champ transmis est ex- 
plicitement calculable. En faisant enfin une approximation paraxiale, nous retrouverons la diffraction 
dans l’approximation de Fraunhofer, telle qu’elle est enseignée généralement de façon élémentaire. 
Nous pourrons alors généraliser les résultats obtenus pour un écran opaque percé à des écrans semi- 
transparents ou même à des objets de phase. 

Dans le troisième et dernier chapitre, enfin, nous traiterons brièvement et qualitativement un 
certain nombre d’applications pratiques de la diffraction. Nous ne ferons qu’évoquer brièvement 
le principe de ces techniques, sans jamais entrer dans le détail des calculs. Nous nous pencherons 
en particulier sur les applications de la diffraction pour le traitement optique des signaux. Nous 
consacrerons quelque temps à la très belle méthode de Labeyrie qui permet de s’affranchir largement 
des fluctuations de l’atmosphère terrestre et de rendre aux instruments astronomiques une partie 
de leur pouvoir de résolution théorique sans pour autant recourir à des moyens spatiaux. Nous 
évoquerons très brièvement le principe de l’holographie et de ses généralisations en optique non linéaire 
(la conjugaison de phase, par exemple). Nous montrerons enfin qualitativement, à partir de la formule 
de Kirchhoff, comment l’optique géométrique peut émerger du cadre de la théorie de la diffraction. Ces 
arguments qualitatifs seront repris sur une base beaucoup plus rigoureuse dans le quatrième appendice 
à cette partie. 
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Cette partie sera en effet prolongée de plusieurs appendices, dans lesquels on a regroupé des sujets 
qui touchent de près ou de loin au problème de la propagation. Il va de soi que ces appendices peuvent 
être omis en première lecture. 

Le premier appendice, très bref, sera un rappel des propriétés de jauge du champ électromagnétique 
et des jauges communément utilisées. Nous insisterons en particulier sur la jauge de Coulomb qui n’est 
pas covariante au contraire de la jauge de Lorentz mais se trouve très utilisée dans le domaine de la 
physique atomique. 

Dans le deuxième appendice, nous nous préoccuperons de l'écriture des champs électromagnétiques 
dans l’espace réciproque. Nous séparerons, dans le champ, des parties longitudinales et transverses. 
Nous définirons les “variables normales” associées aux champs électromagnétiques dans le vide. Nous 
montrerons enfin que la dynamique de ces variables normales est celle d’un simple oscillateur har- 
monique. Nous aurons ainsi largement préparé la voie à la quantification du champ électromagnétique 
qui est essentiellement une quantification d’un ensemble d’oscillateurs harmoniques correspondant aux 
variables normales. Cette quantification sera à peine évoquée ici mais nous en aurons donné les briques 
essentielles, du moins pour ce qui concerne la partie électromagnétique du problème. 

Dans le troisième appendice, nous nous pencherons sur le problème de la propagation des faisceaux 
laser. En utilisant les résultats généraux sur la diffraction, nous construirons des faisceaux “gaussiens”, 
solution approximative des équations de Maxwell dans l’espace libre. Ils représentent de façon assez 
précise, dans le cadre d’une approximation paraxiale, les faisceaux directifs et localisés des lasers. Nous 
établirons quelques propriétés de ces faisceaux, ainsi que quelques résultats élémentaires d’optique 
gaussienne. 

Enfin, dans le dernier appendice, nous nous occuperons du passage de l’électromagnétisme à 
l’optique géométrique. Nous montrerons comment on peut retrouver rigoureusement les lois de l’opti- 
que géométrique à partir des équations de Maxwell à condition de renoncer à décrire les champs à une 
échelle de l’ordre de la longueur d’onde. Nous préciserons ainsi les raisonnements qualitatifs donnés à 
la fin du dernier chapitre. 


Chapitre 1 


Potentiels retardés 


Nous allons, dans ce chapitre, établir rigoureusement la solution des équations de Maxwell en termes 
de potentiels retardés. Nous introduirons pour cela la fonction de Green du champ électromagnétique. 
Nous établirons l’expression de la fonction de Green dans un référentiel donné, renonçant, pour un 
temps, à la covariance manifeste. Nous montrerons rapidement, à la fin de ce chapitre, que la forme 
ainsi obtenue peut très simplement être mise sous une forme covariante, adaptée au changement de 
référentiel. 


1.1 Fonction de Green 


1.1.1 Position du problème 


Notre problème est donc de résoudre les équations aux potentiels. En choisissant la jauge de Lorentz: 


1 OV 


les équations reliant les potentiels aux sources s’écrivent simplement en termes des potentiels scalaire 


et vecteur: 
ODA = mj (1.2) 
[IV = p/o. 1.3) 
[_] est ici opérateur d’alembertien: 
1 ©? 
L = ð," = zzp Â> (1.4) 


où À est le laplacien. 
La forme de l’équation à résoudre est donc la même pour les trois composantes du potentiel vecteur 
et le potentiel scalaire. Nous résoudrons donc en fait dans ce paragraphe l’équation scalaire générique: 


Lo(r,t) =S(r,t), (1.5) 
où @ représente une des composantes du potentiel et S la source associée. Notons bien sûr que cette 
séparation n’a de sens qu’en jauge de Lorentz. La jauge de Coulomb, par exemple, V + A = 0, est 


beaucoup plus ennuyeuse puisque les équations définissant A et V sont couplées (voir appendice 1). 
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1.1.2 Définition de la fonction de Green 


Plutôt que de résoudre directement l’équation (1.5), cherchons une fonction de la position et du temps, 
G(r,t) telle que: 

C] G(r, t) = ü(r)ô(t) . (1.6) 
De manière évidente, G est le potentiel rayonné par une source parfaitement localisée à l’origine de 
l’espace et du temps. C’est en quelque sorte la réponse percussionnelle de l’espace. Nous appellerons 
G la fonction de Green du potentiel. 

Il est bien connu, dans la théorie de la réponse linéaire, que la réponse d’un système linéaire à une 
source quelconque est connue si on connaît la réponse percussionnelle. Dans le domaine du filtrage, 
par exemple, si on note g(t) la réponse percussionnelle du filtre (la réponse quand il est sollicité par 
une fonction de Dirac à l’origine des temps), la réponse s(t) à un signal d’entrée e(t) est simplement 
la convolution du signal d’entrée par la réponse percussionnelle: 


(ee) 


OO 

s(t) = J g(t — r}e(r) dr = Î glr)elt — r}dr , (1.7) 
— OO —OO 

(l'intégrale s'étend de —o à œo à condition d'admettre que la réponse percussionnelle g(t) est nulle 

pour t < 0, une simple conséquence de la causalité). Cette convolution résulte de la linéarité du 

système et de la possibilité de développer le signal d’entrée sur les fonctions de Dirac: 


OO 
e(t) = | e(r)ô(t — r)dr . (1.8) 
— OO 

Ces résultats sont largement utilisés, en électronique par exemple. Une détermination de la réponse 
percussionnelle permet de caractériser complètement un amplificateur. Notons d’ailleurs que, par une 
transformée de Fourier élémentaire, on trouve que la composante de Fourier à la fréquence w du signal 
de sortie est proportionnelle à la composante de Fourier à la même fréquence du signal d’entrée. Le 
coefficient de proportionnalité, appelé susceptibilité du système à cette fréquence, n’est autre que la 
composante de Fourier à w de la réponse percussionnelle. Susceptibilité et réponse percussionnelle 
sont donc reliées simplement par une transformation de Fourier. Nous aurons l’occasion de revenir 
largement sur ces problèmes dans la dernière partie de ce cours, quand nous traiterons la susceptibilité 
linéaire d’un milieu matériel. 

Nous allons montrer explicitement que la fonction de Green, la réponse percussionnelle, nous donne 
aussi la solution générale de l’équation aux potentiels. Si Œ obéit à l’équation (1.6), on a aussi: 


ClriG(r-rit-t) = Ô(r —r1)ô(t — tı) è (1.9) 


Les indices portant sur le d’alembertien précisent sur quelles variables portent les dérivations. On en 
déduit immédiatement: 


C] rtG(r = rı,t = tı)S(rı, tı) = ô(r bad rı)ó(t = tı)S(rı, tı) ; (1.10) 


les termes en S étant des constantes vis à vis des dérivations dans le d’alembertien. En intégrant 
alors les deux membres de cette équation sur toutes les valeurs d’espace et de temps de rı et tı et en 
remarquant que l'intégration sur le second membre donne trivialement S(r, t) en raison de la présence 
des Dirac, on obtient: 


S(r,t) = f drıdtı Cela rt tSt . (1.11) 


En remarquant finalement que l’opérateur d’alembertien du membre de gauche commute avec l’inté- 
gration, on constate que le potentiel: 


se DE Î PCA HS CEE) (1.12) 
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est effectivement une solution de l’équation (1.5). 

Comme pour la théorie du signal élémentaire, la solution de l’équation aux potentiels est la con- 
volution des termes sources avec la réponse percussionnelle du système. Résoudre l’équation aux 
potentiels est donc équivalent à trouver l’expression de la fonction de Green. Deux approches sont 
possibles à ce stade. Dans la première, comme nous le verrons dans le paragraphe suivant, on peut, en 
se fondant sur des arguments très généraux, écrire à priori la forme de la fonction de Green. Il ne reste 
alors qu’un coefficient arbitraire, qu’on peut identifier en essayant cette solution dans l’équation (1.6). 
Dans la deuxième approche, plus satisfaisante intellectuellement et à peine plus difficile, on résoudra 
directement cette équation en utilisant les propriétés de la transformation de Fourier. 


1.1.3 Approche qualitative 


Nous cherchons ici à donner, par des arguments très simples, la forme de la fonction de Green. 
Rappelons qu’il s’agit du potentiel rayonné par une source qui est localisée à l’origine et qui n'existe 
qu’à l'instant origine. En raison de l’invariance de l’espace par rotation, la fonction G doit être, comme 
sa source, à symétrie sphérique. Elle ne peut donc dépendre que de la distance r à l’origine. 

Nous “savons bien” (ce sera l’objet du prochain paragraphe de le montrer rigoureusement) que les 
solutions à l’équation des potentiels décrivent des ondes se propageant à la vitesse c. La source étant 
nulle en tout instant sauf 0, la fonction G doit décrire une onde sphérique très localisée divergeant de 
l’origine à la vitesse c à partir de t = 0. Elle n’est donc non nulle que pour des distances telles que 
t=r/c. G est “donc” proportionnelle à ô(r — ct). 

L'énergie doit se conserver. Les champs sont linéaires dans la fonction de Green. Le vecteur de 
Poynting est donc quadratique dans la fonction de Green. Pour que l’énergie totale transportée par 
cette onde soit indépendante du temps, il faut que le vecteur de Poynting soit en 1/r? au niveau du 
“front d'onde”. La fonction de Green doit donc être proportionnelle à 1/r: 


G(r,t) = o — ct). (1.13) 


r 


Il nous faut enfin tenir compte de la causalité. La fonction de Green doit être nulle en tous les 
instants précédant l'instant origine. On peut en tenir compte en ajoutant une fonction de Heaviside 
du temps 0(t). On a alors tenu compte de toutes les propriétés essentielles de la fonction de Green, 
qui doit pouvoir s’écrire: 


Grijs AO(D6(r E a (1.14) 


La constante A est a priori arbitraire. Pour l'identifier, on portera cette expression dans l'équation 
(1.6)!. On trouvera: 


A 7, 1.1 
AT ( D 


Bien sûr, ce raisonnement qualitatif, bien qu’il donne le résultat exact, est insatisfaisant. Ce n’est 
que par substitution dans l’équation initiale qu’on peut vérifier que la solution est effectivement con- 
venable. Nous allons consacrer le prochain paragraphe à une solution plus rigoureuse. En particulier, 
nous n’aurons pas à admettre la propagation des solutions à la vitesse c qui est sans doute l’hypothèse 
la moins justifiée a priori dans le raisonnement précédent. 


INous conseillons au lecteur d'effectuer ce calcul, qui impose une manipulation soigneuse des distributions. On 
y comprendra mieux en particulier quel rôle joue la fonction (t) dans la fonction de Green. On verra qu’elle est 
indispensable pour obtenir un comportement convenable au voisinage de l’origine. 
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1.2 Solution rigoureuse 


1.2.1 Fonction de Green 


Pour résoudre (1.6), nous allons passer dans l’espace réciproque. Nous introduisons donc la transformée 
de Fourier quadridimensionnelle de G définie par: 


1 , 
Õ(k,w) = == J G(r, tje Er) Brdt , (1.16) 
(27) 
où l'intégration doit s'effectuer sur tout l’espace-temps. La relation réciproque s'écrit simplement: 
1 z ; 
E T E I Ğ(k, w) dkdw . (1.17) 
(27)? 


L'avantage de la transformation de Fourier est de rendre triviaux les opérateurs différentiels sur l’espace 
ou le temps. En prenant la transformée de Fourier du premier membre de (1.6), on obtient simplement 
(k? — w?/c2)G. La transformée de Fourier des fonctions de Dirac est une constante et l’équation (1.6) 
se met finalement dans l’espace réciproque sous la forme: 


à 1 
(k? — w?/)G(k,w) = PO (1.18) 


La solution de cette équation algébrique est élémentaire: 


à (k O e 1 
PROSTR ER ui (aa 
Le problème est donc immédiatement résolu. Pour pouvoir utiliser cette solution, il faut toutefois 
repasser dans l’espace réel par une opération de transformation de Fourier inverse qui, comme nous 
allons le voir, est un peu plus complexe. 
La fonction de Green dans l’espace réel s’écrit donc: 


ce ekr-uwt) $ 
Il est clair cette intégration n’est pas élémentaire, puisque l’intégrande présente des pôles en w = ck. 


On pourra d’ailleurs constater tout de suite que ces pôles coïncident avec la relation de dispersion 
pour des ondes planes dans le vide, ce qui n’est pas tout à fait un hasard. Pour régler ce problème, 
nous procéderons en deux temps, d’abord à l'intégration sur les fréquences puis à l'intégration sur les 
vecteurs d'onde. 

Nous avons donc à calculer: 


I =) EC (1.21) 


l'intégration s’effectuant sur tout l’axe réel. La fonction à intégrer étant définie et analytique sur 
l’ensemble du plan complexe, nous allons procéder, comme il est d’usage en pareil cas, à une défor- 
mation du contour d'intégration. Au lieu d’intégrer sur l’axe réel, nous choisirons d’intégrer sur une 
droite parallèle, correspondant à des valeurs de w de partie imaginaire constante égale à e. Si tout 
se passe bien, nous pourrons prendre à la fin des calculs la limite pour € — 0 et obtenir un résultat 
physique’. Nous choisirons e > 0. Nous discuterons dans un moment ce qu’on obtiendrait en faisant 
lautre choix possible. 

Pour appliquer le théorème des résidus, il nous faut fermer le contour d'intégration par un “demi- 
cercle à linfini” situé soit dans le demi plan supérieur, soit dans le demi plan inférieur. Cette fermeture 


2Nous verrons en fait que le résultat final est indépendant de €, rendant trivial le passage à la limite. 
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Figure 1.1: Contours ď’intégration dans le plan complexe des fréquences pour le calcul de l'intégrale sur la fréquence w 


intervenant dans la fonction de Green. Pour des temps négatifs, le contour de gauche convient. Pour des temps positifs, 


on choisira le contour de droite. Les pôles de la fonction à intégrer sont situés en +ck sur l’axe réel. 


est possible à condition que cette nouvelle partie du contour ne contribue pas à l’intégrale. Si t est 
positif, e*t tend vers 0 pour des points à distance infinie dans le demi plan inférieur, correspondant 
à des parties imaginaires négatives pour w. Pour t > 0, nous intégrerons donc sur le contour C< 
représenté à droite sur la figure 1.1. En revanche, pour t < 0, nous intégrerons sur le contour C, qui se 
referme par un demi-cercle dans le demi plan supérieur. Les pôles de la fonction à intégrer étant tous 
deux sur l’axe réel, nous trouvons donc immédiatement que l'intégrale et, donc, la fonction de Green 
sont nulles pour les instants négatifs. G est donc proportionnelle à la fonction de Heaviside 0(t). C’est 
une simple expression de la causalité, la source de ce potentiel n’existant qu’à l'instant origine. 

Si nous avions choisi initialement une partie imaginaire e négative pour notre contour d’intégration, 
les choix de demi-cercles pour fermer le contour d’intégration en eussent été inchangés. En revanche, 
comme on s’en persuadera aisément, on aurait trouvé une fonction de Green non nulle pour t < 0, nulle 
pour t > 0 : un potentiel qui précède la source. Une telle situation viole manifestement la causalité 
relativiste et ne peut convenir. Le choix d’une partie imaginaire positive pour w n’est donc pas du tout 
arbitraire”. On pourra, à titre d'exercice, poursuivre le calcul avec e < 0. Sans surprise, on trouvera, 
au lieu des potentiels retardés en r — ct, la solution non physique en potentiels “avancés” en r + ct. 
La présence de ces solutions parasites est clairement due au fait que l’équation de propagation est du 
second ordre en t et se trouve donc invariante dans un renversement du sens du temps. 

Nous n’avons donc plus à calculer J que pour t > 0. Les résidus de la fonction sont: 


e ickt 
DE en  Ww—=ck (1:22) 
ickt 
5 A en w=-—ck. (1.23) 
c 
(1.24) 


Compte tenu du sens dans lequel est parcouru C<, I est égale à —2ir fois la somme des résidus. On 


3Nous rencontrerons le même genre d'arguments dans la partie sur l’électromagnétisme dans la matière quand nous 
établirons les relations de Kramers-Kronig. 
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trouve donc immédiatement, en regroupant les termes: 
27 
I = —sinckt. 1.25 
T (1.25) 
En reportant cette expression dans celle de la fonction de Green, on obtient: 


G(r,t) = 5) gr dk. (1.26) 
Pour procéder à cette dernière intégration spatiale, nous utiliserons les coordonnées sphériques (k, 0, œ) 
pour k (l’intégrande est évidemment à symétrie sphérique, ce qui reflète l’invariance par rotation). 
L’axe vertical de ce repère sera choisi aligné avec r. Dans ce calcul, r apparaît comme une constante 
et ce choix est possible pour chaque position. L'intégrale sur © est triviale et donne un simple facteur 
27. En remarquant que k -r = kr cos 0, l’intégrale sur 0 s'écrit simplement: 


T 2 
| sin ĝe" 56 q9 = — sinkr . (1:27) 
0 kr 
Il ne nous reste finalement que l'intégrale sur r à calculer: 


G(r,t) - = | sin ckt sin kr dk . (1.28) 


7 22r Jo 


En transformant le produit de sinus en une somme de cosinus et en passant aux exponentielles com- 
plexes, on a: 


G(r,t) = — f es q emilet)  eiklrtct) _ —ik(r+)| dk 
=. £ ai ik(r—ct) _ pik(r+ct) 
— 8r?r N [e £ dk . (1.29) 


Pour passer à la seconde ligne, on a remarqué que les exponentielles complexes de la première peuvent 
être regroupées deux par deux en procédant au changement de variable k — —k et en étendant 
donc l'intégration à tout l’axe réel. Les intégrales d’exponentielles complexes sur tout l’axe donnent 
simplement, à un facteur 2r près, des fonctions de Dirac et on a: 

c 1 

G(r, t) = —-(ô(r — ct) — (r + ct)) . (1.30) 

Anr 
Nous ne devons pas oublier à ce stade que le calcul n’a été effectué que pour t > 0 et que la fonction 
de Green est en fait proportionnelle à (t). Pour des valeurs positives de t, la seconde fonction de 
Dirac dans l'expression précédente ne joue aucun rôle et nous pouvons finalement écrire: 


G(r, t) = £ 0(t)ô(r — ct). (1.31) 


Nous avons maintenant une forme explicite de la fonction de Green. Avant d’aller plus loin, nous 
allons la mettre sous une forme légèrement différente, parfois mieux adaptée à certains calculs (nous 
l’utiliserons en particulier pour établir la forme des potentiels retardés). Nous allons en effet montrer 
qu'on peut aussi écrire: 


Wees Eoi niea (1.32) 


Pour établir très simplement ce résultat, il suffit de remarquer que: 


= EE Zaq eea (1.33) 
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1.2.2 Forme covariante 


Nous avons établi les formes précédentes de la fonction de Green en distinguant bien espace et temps. 
Nous avons donc a priori perdu la covariance manifeste des équations de Maxwell. Il n’en est heureuse- 
ment rien en fait et on peut, par de simples manipulations algébriques, mettre la fonction de Green 
sous une forme manifestement covariante. 

Nous pouvons en effet écrire: 


Olr — ct) = O(t) [ô(r — ct) — (r + ct)] . (1.34) 


Nous avons en effet déjà utilisé cette propriété (la fonction de Heaviside annule l’action de la seconde 
fonction de Dirac) dans l’établissement de la forme finale de la fonction de Green. La somme de 
fonctions de Dirac peut être réécrite: 


ô(r— ct) — 0(r + ct) = 2rô( (ct —r)(ct+r)). (1.35) 


Pour nous en convaincre, nous pouvons considérer l’action de ô((ct — r)(ct + r)) sur une fonction 
régulière f(r,t). Deux points contribuent à l'intégrale sur r: +ct. Au voisinage du point r = ct, la 
fonction de Dirac, considérée comme distribution sur t, est équivalente à 0(2r(ct — r)) = ô(ct —-r)/2r. 
Cette équivalence, ajoutée à la contribution de r = —ct, établit finalement cette propriété utile. 

En remarquant que c?t? — r? = Tux”, où les z” sont les coordonnées contravariantes du point où 


est calculée la fonction de Green, cette dernière peut s’écrire: 


G(x”) = 2 0(a°)5(œux") (1.36) 


La fonction de Dirac au second membre est manifestement covariante. La fonction de Heaviside l’est 
aussi en dépit des apparences. Nous avons vu en effet que les transformations de Lorentz n’affectaient 
pas l’ordre temporel de deux événements situés dans ou sur le cône de lumière l’un de l’autre: passé, 
futur et causalité sont des invariants relativistes. Le signe de x° est donc un invariant relativiste. Nous 
avons donc obtenu, avec (1.36), une forme manifestement covariante de la fonction de Green. 


1.2.3 Potentiels retardés 


La dernière étape à franchir est élémentaire. Il ne nous reste qu’à reporter la fonction de Green dans 
l'expression (1.12). Nous utiliserons pour cela la deuxième forme de la fonction de Green. On a alors 
la solution de l’équation aux potentiels sous la forme: 


ne Efo (|r — n)? = MoE a rlo fr, #1) dri di . (1.37) 
Nous pouvons à ce point oublier la fonction 0. Elle ne joue de rôle que pour des points sources rı 
infiniment proches du point d'observation r. Si la source est une répartition continue de charges, la 
contribution correspondante est infinitésimale. D’intégration sur le temps est alors triviale. Le seul 
instant tı qui contribue est tel que la source et le point d'observation soient sur le cône de lumière l’un 
de lautre (nous reverrons plus tard ce raisonnement sous une forme un peu différente en examinant 
le rayonnement des charges en mouvement). On a donc: 


1 S(rı,t — |r — rı|/c) 
a EE pes E 1.38 
69 = aa r, (1.38) 
forme standard de la solution en termes de potentiels retardés. En ajoutant les facteurs dimensionnels, 
on retrouve en effet les formes habituelles pour les expressions des potentiels scalaire et vecteur: 


p(rı, t — |r - rıl/c) 3 
= 1. 
pea Ta — | ne in (1.39) 


A(rt) = e fiet aNg i e dri. (1.40) 
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L'interprétation physique de ces expressions est si transparente que nous n’y reviendrons pas. 


Chapitre 2 


Diffraction: approche théorique 


Introduction 


Un problème générique de diffraction est représenté sur la figure 2.1. Une source de rayonnement 
éclaire une portion d’espace à travers un écran opaque percé d’une ouverture. Nous cherchons à 
déterminer les champs ou les potentiels en présence de l’écran à partir de ce qu’ils sont dans l’espace 
libre. Bien sûr, le problème admet de nombreuses variantes, avec des écrans semi-transparents ou 
des écrans ne modifiant que la phase des champs, mais le principe du calcul reste toujours le même. 
Le volume dans lequel nous désirons déterminer le champ sera limité par une surface fermée S (la 
fermeture de la surface pourra éventuellement se faire par une portion de “sphère de l'infini”). Il est 
assez naturel que S coïncide avec l’écran là où il est présent. Nous allons en fait procéder en plusieurs 
étapes. 

Nous établirons d’abord la formule de Kirchhoff qui permet de calculer le champ (ou plutôt, comme 
dans le chapitre précédent, une des composantes du potentiel) en tous points du volume VY intérieur à 
S si on connaît le champ en tous points de la surface S à tous les instants. Cette formule sera établie 
sur des bases très générales à partir de la fonction de Green. Bien sûr, elle permettrait de résoudre 
directement notre problème de diffraction si on connaissait le champ sur S. 

En fait, le champ de la source est clairement nul à l'infini. Il est nul aussi en tous points de l’écran, 
à condition de prendre S infiniment proche de l’écran du côté opposé à la source. Cela résulte de 
l'hypothèse que l’écran est totalement absorbant. Le problème serait donc résolu si on connaissait 
le champ sur la petite portion de S au voisinage immédiat du “trou” percé dans l’écran. C’est bien 
sûr là que réside la difficulté essentielle. Le champ dans cette région est en effet la somme du champ 
produit par la source et du champ rayonné par les courants induits dans l’écran. Tenir compte 
convenablement de ceux-ci, c’est résoudre explicitement les équations de Maxwell avec les conditions 
aux limites imposées par l'écran. Ce calcul est en général tout à fait impossible!. Il nous faut donc 
faire une approximation pour pouvoir continuer. 

Cette approximation, équivalente au principe des ondelettes de Huygens, fera l’objet du second 
paragraphe. Nous assimilerons simplement le champ sur S “dans le trou” au champ libre des sources 
en l’absence d'écran. C’est évidemment une approximation très grossière. Nous pourrons cependant en 
justifier la validité dans la plupart des cas utiles et nous verrons dans la suite qu’elle rend étonnamment 
bien compte des phénomènes de diffraction les plus courants. Nous établirons alors une formule 
donnant de façon assez générale le champ diffracté dans le volume V. 

Dans le dernier paragraphe de ce chapitre, nous retrouverons la formulation élémentaire de la 
théorie de la diffraction en termes de transformée de Fourier de la fonction de transparence de 
l'écran. Nous verrons que ce régime s'établit simplement en effectuant une approximation paraxi- 


1Un seul cas a été résolu explicitement par Sommerfeld, au début du siècle, celui de la diffraction par le bord d’un 
demi-plan infiniment mince. On trouvera le calcul détaillé dans le Born et Wolf. 
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Figure 2.1: Situation générique d’un problème de diffraction. Une source éclaire une portion de l’espace, limitée par 


une surface S, à travers une ouverture dans un écran opaque E. 


ale sur l’expression obtenue au paragraphe précédent. Nous rappellerons alors brièvement un certain 
nombre de résultats standard relatifs à ce régime qui nous seront utiles dans une discussion qualitative 
des applications de la diffraction. 


2.1 Formule de Kirchhoff 


La situation qui nous préoccupe ici est donc celle représentée sur la figure 2.1 en l’absence de l’écran 
E. En d’autres termes, nous voulons calculer le champ en tous points du volume VY intérieur à la 
surface S à partir de la valeur du champ sur cette surface. Nous supposerons qu’il n'existe pas de 
sources à l’intérieur du volume VY où nous calculons le champ. Si c'était le cas, il faudrait ajouter à 
notre résultat leur contribution, calculée par la formule des potentiels retardés. Il faut bien dire qu’on 
n’éclaire pas en général l’image de diffraction avec une lampe de poche placée derrière l’écran percé! 
Nous considérerons bien sûr la forme générique de l’équation de propagation et, comme au chapitre 
précédent, nous noterons ® la composante du potentiel que nous appellerons systématiquement “champ” 
par abus de langage et S sa source. Nous calculerons le champ en un point générique r,t du volume 
VY. Dans toute la suite, r1,t{1 désignera un point de la surface S ou du volume VY à un autre instant. 
Comme il n’y a pas de sources dans VY, on a 


CJi, tı) =0, (2.1) 


où | ]ı désigne l’opérateur d’alembertien portant sur les coordonnées spatio-temporelles du point 
rı, tı. On a de même, en utilisant la définition de la fonction de Green: 


hé -r,t — tı) = Ô(r — r1)o(t — tı) (2.2) 


(nous dérivons ici par rapport à rı et non par rapport à r, mais le résultat est le même puisque [ ] 
ne fait intervenir que des dérivées du second ordre, insensibles au signe de l’argument). On déduit 
immédiatement de ces deux expressions que: 


G[Ọ]:ı9-ọL] 1G = —(r1,t1)0(r — rı)ô(t — tı) ; (2.3) 
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Intégrons maintenant les deux membres de cette équation sur le temps tı et sur les points rı du volume 
V. L'intégrale du second membre donne trivialement —¢(r, t). On a donc: 


= I P l OBES eea (2.4) 


Nous chercherons maintenant à transformer l'intégrale de volume en une intégrale sur la surface S. 
Pour cela, remplaçons maintenant le d’alembertien par son expression explicite: [ ]ı = 1/ c20? /3t? — 
A1. L'intégrale fait alors intervenir une somme de deux termes, l’un contenant les dérivées temporelles 
et l’autre les opérateurs laplaciens. Les termes temporels s'écrivent: 


ER On 


o _  G_ ð | CE 7 
ðt ðt 


(2.5) 


L'intégration temporelle est donc immédiate. Elle donne un terme proportionnel à ġ et G, évalué à 
tı = —œ ou tı = œ. Très clairement, tout modèle raisonnable doit supposer que les champs s’annulent 
à des instants infiniment lointains. Ce terme tout intégré est donc manifestement nul et il ne reste 
que les termes en laplacien: 


de | dr l JGA — PAG). (2.6) 
v —00 
Le terme à intégrer est manifestement une divergence: 
GA — PAG = Vi-[GVi9 — #V1G]. (2.7) 


On peut immédiatement transformer l’intégrale de volume en une intégrale sur S et écrire: 
OO 
re J dti f dsi : [GV16 — 6V1G , (2.8) 
=CO: 


où dS; est l’élément de surface de S (avec l’orientation classique de la normale sortante). Une simple 
convention de notations nous permet alors d’obtenir la formule de Kirchhoff sous sa forme standard. 
Nous définirons la “dérivée normale” d’une fonction @ sur la surface § comme: 

06 


où n est le vecteur unitaire normal à S. Remarquant que dSı = dSjin, nous avons finalement: 


Je J : dt L Ce z c] di . (2.10) 


Nous avons donc rempli nos objectifs en exprimant le champ en tous points intérieurs à V en fonction du 
champ uniquement sur S. Bien sûr, la connaissance du champ sur § à tous les instants est nécessaire 
pour reconstituer tout le champ dans V. La formule de Kirchhoff ainsi établie est parfaitement 
générale et exacte. Notons qu’il en existe d’autres versions beaucoup plus sophistiquées, permettant 
par exemple de traiter les fonctions de corrélation du champ. On les trouvera décrites dans le Born 
et Wolf. 


2.2 Principe de Huygens 


Si la formule de Kirchhoff résout parfaitement la question en l’absence d’écran, elle ne nous est pas 
directement utile pour la diffraction. En effet, dans le cas de la figure 2.1, il est clair que le champ 
est nul en tous les points de $ qui sont directement situés derrière l’écran. Il est nul également 
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Figure 2.2: Conventions d'orientation et notations pour le calcul du champ diffracté. 


sur les portions de S situées à linfini. Il n’est non nul en fait que sur les portions de $ qui sont 
situées immédiatement derrière le trou dans l’écran Æ. Le problème est que le champ à ce niveau est 
la somme des champs produits par les sources et des champs rayonnés par les courants induits dans 
l'écran. Ceux-ci, comme nous l’avons déjà vu, ne sont pas en général calculables. Il nous faut donc 
recourir à une approximation pour poursuivre. 

Cette approximation est plutôt brutale. Nous allons supposer que les champs en tous points de 
la surface S derrière le trou sont identiques aux champs rayonnés par les sources en l’absence de 
l’écran. Nous négligeons ainsi les courants induits dans l’écran qui sont précisément responsables 
de son opacité! Nous pouvons cependant essayer d'imaginer dans quels types de conditions cette 
approximation pourrait être valable. 

Elle est d’abord loin d’être valable si les dimensions du trou sont de l’ordre de la longueur d’onde 
ou plus petites. Il est clair que, dans une telle structure, les champs sont considérablement modifiés 
par rapport à ce qu’ils sont dans l’espace libre’. Il est clair aussi que cette approximation tombe si 
l'épaisseur de l’écran est beaucoup plus grande que les dimensions transverses du trou. Là aussi, les 
champs à la sortie n’ont rien à voir avec les champs directement rayonnés par les sources. Si cette 
approximation grossière a quelques chances de refléter la réalité, c’est pour des ouvertures ayant une 
extension grande devant la longueur d’onde et percées dans des écrans minces. Heureusement, c’est 
une situation qu’on rencontre souvent en optique. En fait, cette approximation est bien meilleure en 
pratique que ne le laisse supposer son aspect. 

Nous allons pouvoir alors expliciter le calcul des dérivées de la fonction de Green et du champ et 
terminer le calcul de la formule de Kirchhoff. Pour simplifier encore un peu, nous allons supposer (ce 
qui est en général le cas en pratique) que les sources sont monochromatiques et situées loin de l’écran 
(à l'échelle de la taille du trou). En d’autres termes, nous allons assimiler le champ des sources à une 
onde plane de fréquence w au niveau du trou. Nous considérerons des points rı sur la portion de la 
surface S au “voisinage” du trou. La figure 2.2 précise un certain nombre de conventions d'orientation. 

Nous choisirons une origine O située dans cette portion de S. La normale n à S est orientée en 
direction de la source. Si le trou est assez petit, nous pourrons assimiler la portion utile de S à un 


2Notons que, dans ce cas, le calcul des champs transmis est possible. En effet, les phénomènes de propagation jouant 
peu pour des dimensions plus petites que À, on peut raisonner comme si les champs étaient statiques. On calcule donc 
le champ électrique, en électrostatique, à l’orifice du trou. On lui ajoute alors une dépendance sinusoïdale en temps et 
on peut calculer ensuite le champ rayonné, par exemple en appliquant la formule de Kirchhoff à une surface bien choisie. 
On trouvera des discussions de problèmes similaires dans le Jackson. 
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plan. n est donc constant. Les sources sont situées à grande distance en ro dans une direction faisant 
un angle ao avec n. Le vecteur d’onde de l’onde plane incidente sera noté ko. Le point d’observation 
r est situé dans une direction faisant un angle a avec l’opposé de n. Nous noterons u le vecteur 
unitaire de la direction d'observation. Le point courant de l’intégration est simplement repéré par sa 
position r1. 

Nous avons donc essentiellement à calculer 00/0n et 0G/On. Le champ des sources au point rı 
s'écrit: 


lri, ti) = ekorie hi, (2.11) 
On a donc 
V19 = iko® (2.12) 
et 6 
a — —ik cos ao@(r1,t1) , (2.13) 


où k est le module du vecteur d’onde incident ko. Dans ce calcul, on prendra garde aux différentes 
orientations. 

Ecrivons maintenant 0G/On. Le gradient de G(r — r1,t — tı) peut s’écrire, en remarquant que la 
fonction de Green est à symétrie sphérique par rapport au point source ou au point d’observation: 


oG 


VıG = -u . 
: “on 


(2.14) 
Nous utiliserons pour G la forme (1.32). r étant dans ce cas toujours très différent de r1, la distribution 
0 ne joue aucun rôle et nous pouvons l’oublier dans le calcul de la dérivée. Nous devons donc dériver 
ô(t—t1 — |r — rı|/c)/4r|r — rı| ce qui donne immédiatement: 


8'(t—t — |e — rıl/c) 4 ô(t — tı — |r — rı|/c) 


VG =u 
4relļr — rı| 4r|r — rıl? 


, (2.15) 
où 0’ désigne la dérivée de la distribution de Dirac par rapport à son argument. Le gradient de G fait 
donc intervenir deux termes. L’un est en 1/|r — r1|, l’autre en 1/|r — r1/?. Quand l'observation a lieu 
à grande distance, le second terme est négligeable par rapport au premier. On peut bien sûr ne pas 
être très convaincu par un raisonnement d’ordres de grandeur appliqué à des distributions. Notons 
qu’on peut rendre le raisonnement plus rigoureux en faisant agir les deux distributions présentes dans 
le gradient de G sur une fonction régulière du temps et de l’espace oscillant à la fréquence w, f. Le 
deuxième terme donne une contribution en f/|r—r1|? et le premier une contribution en f (w/c)/|r—r1]. 
Comme w/c n’est autre que la longueur d’onde À du rayonnement, le premier terme est plus grand 
que le second par un facteur de l’ordre de |r — r1|/À. Nous pouvons donc négliger le deuxième terme 
dès que la distance d’observation est notablement plus grande que À. L'écriture finale de 0G/ôn ne 
pose aucun problème et on a: 
oG 1 c' (t — ti — |r — rıl/c) 


= —— COS Q1 


2n 2.16 
On ATC |r — rı| Fe) 


Nous reportons alors l’expression des dérivées normales dans la formule de Kirchhoff (2.10). Nous 
commencerons par estimer le terme le plus complexe, en b0G/ôn. Il s'écrit: 


o0 2G 
S J dt i dso 


1 1 oo 
J dSi ac r-nl le dt: O(r1,t1)0 (t — 11 — fr r1|/c) ; (2.17) 


A 


en procédant d’abord à l'intégrale sur tı et en en ôtant tous les termes indépendants de tı. Dans cette 
expression et toutes les suivantes, l’intégrale de surface s’étend uniquement à la portion de § située 
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immédiatement derrière l’orifice. On pourrait étendre l’intégration à toute la surface en multipliant ® 
par une fonction de transparence, nulle partout sauf dans ce domaine. Pour ne pas alourdir inutilement 
les notations, nous ne procéderons à cette transformation que dans le paragraphe suivant. L'intégrale 
sur le temps peut se calculer par parties. Le terme tout intégré est manifestement nul en raison de la 
présence de la distribution de Dirac. L'intégrale sur tı s’écrit donc finalement 


ca ðe <) 
dtı —ô(t — tı — lr — = — . 2.18 
Te rg aeS ha (2.18) 


ġ étant une fonction oscillante à la fréquence w, sa dérivée temporelle à l’instant retardé peut tout 
aussi bien s’écrire: 
06 


Ôt: Le 


Remarquons que nous faisons, par un artifice trivial, intervenir ici la valeur du champ estimée au point 
rı, non pas au temps retardé tı, mais bien au temps d'observation t. L'avantage immédiat de cette 
approche est que le temps d'observation, au contraire du temps retardé, est invariable quand r varie 
(nous n’avons toujours pas fait l'intégration spatiale). On a donc finalement: 


= —iwọ(ri, tJel (2.19) 


iw eklr-ril 
= 2.20 
=] dSı cos a1@(r1,t) EN (2.20) 
Nous calculons maintenant l’autre terme dans la formule de Kirchhoff: 
oS Ô 
Pu p dt J asia 
On 
—ikcos ap [© 
= dS dt tı)ô(t — tı — |r — ; 2.21 
fase S ental- t = e= r/o) (2.21) 
L'intégrale sur le temps est triviale et donne: 
olri,t— |r — r1ı|/6) = (r1, then. (2.22) 
On a donc finalement: 
eklr- rıl 
B = -2f dSı cos aog(r1, DEFT (2.23) 
=ri 
En regroupant les termes À et B et en remarquant que k = 27r/A et w/c = k, on obtient finalement: 
eklr- rıl 
olr, =5 fas xori, DFA] , (2.24) 
avec i 
X = 7 (cos ao + cos Q1) . (2.25) 


L'interprétation physique de cette expression est transparente. Le champ au point d’observation 
s'écrit comme la somme d’ondes sphériques (le terme en e°*”/r) rayonnées par les différents points 
du trou. Chacune de ces ondes a une amplitude proportionnelle à l’amplitude de l’onde incidente 
(terme en @), multipliée par un terme constant en 1/iÀ et par un facteur purement géométrique 
décrivant l’inclinaison des “rayons lumineux” par rapport à la normale, x. Nous retrouvons ici sur 
une base “rigoureuse” le principe des ondelettes de Huygens. Les premières approches théoriques 
de la diffraction postulaient en effet que chaque élément de surface de l’ouverture diffractante était 
une “source secondaire” d’une “ondelette” sphérique d'amplitude proportionnelle à celle de l’onde 
incidente. On retrouve ainsi l’essentiel de la formule (2.24). Il n’y manque que le préfacteur qui n’a 
aucune importance si on ne s'intéresse finalement qu’à l’intensité diffractée en valeur relative et le 
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facteur y. Celui-ci est très voisin de l’unité si l’écran est à peu près normal à la direction de l’onde 
incidente et de l’onde diffractée, ce qui est en général le cas dans une expérience de ce type. Notons 
que cette dépendance en cosinus des angles n’est pas sans rappeler la loi de Lambert d’émissivité des 
surfaces. 

Le calcul pratique de l'intégrale est en général assez difficile, comme on pourra s’en convaincre 
aisément. Un des succès les plus marquants de l’optique ondulatoire, qui s’est longtemps opposée 
à une conception corpusculaire, a été la démonstration théorique et expérimentale, par Poisson, de 
la présence d’un maximum d'intensité sur l’axe, à distance finie, pour la diffraction par un obstacle 
circulaire. Le développement des calculs de diffraction au siècle dernier a suscité l’introduction de 
nombreuses fonctions spéciales, telles la célèbre fonction d’Airy. Des méthodes graphiques ont aussi 
été développés pour sommer les amplitudes diffractées (méthode des spirales de Cornu, par exemple). 
Avec les calculateurs numériques, ces méthodes sont tombées en désuétude. Elles ont cependant un 
contenu physique qui est loin d’être inintéressant (on pensera en particulier à la méthode des zones 
de Fresnel). On pourra consulter, pour en savoir plus, le Bruhat-Kastler d'optique, très complet sur 
ce sujet. 


2.3 Diffraction de Fraunhofer 


2.3.1 Approximation paraxiale 


Nous restreindrons un peu la généralité du paragraphe précédent pour obtenir des expressions plus 
simples. Nous décrirons en fait une expérience typique de diffraction telle qu’elle est réalisée en optique. 
En général, l’écran est plan et la source l’éclaire normalement. On a donc cos ap = 1 et @ est une 
constante dans le domaine d’intégration que nous noterons @1. Nous ferons aussi l'hypothèse que 
l’observation s’effectue à très grande distance. Nous ne garderons donc dans l’expression finale que 
les termes au premier ordre non trivial en 1/|r — rı|. Finalement, nous supposerons que les angles de 
diffraction sont petits et donc que la direction d'observation est, elle aussi, pratiquement normale au 
plan de l’écran. On aura donc cos «1 = 1 et donc x = 1. Notons que cette approximation est tout 
à fait consistante avec l’hypothèse d’illumination normale et le principe de Huygens qui ne tient que 
pour des ouvertures notablement plus grande que À, pour lesquelles les angles de diffraction restent 
modérés. 
En reportant ces différentes hypothèses dans (2.24), on met le champ diffracté sous la forme: 


Qı eklr-ril 
o(r,t) = a 1 ran : (2.26) 
L'intégrale, là encore, ne porte que sur la portion de S située immédiatement derrière louverture. 
Comme l’observation se fait à grande distance, le terme 1/|r — rı| varie très peu quand le point rı 
parcourt le domaine d'intégration. Il est donc tout à fait légitime de remplacer, à l’ordre le plus bas, 
ce terme par 1/r, distance de l’origine (située dans le domaine d'intégration par hypothèse) au point 
d'observation. Le terme de phase, en revanche, doit être traité plus soigneusement. Il peut varier 
notablement sur le domaine d'intégration, puisqu’une variation de l’ordre de À de la distance suffit. 


Nous allons donc développer ce terme: 


z ) (2.27) 


et donc: 


(2.28) 
L’exponentielle complexe peut donc s’écrire: 


eklr-ril = etk" eik Ti (2.29) 
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en posant 
k= kZ = ku. (2.30) 
Nous allons également étendre formellement l'intégration à tout le plan de l’écran. Nous repérerons 
les positions dans l’espace par un trièdre Oxyz. D'origine O est la même. Les axes Ox et Oy sont dans 
le plan de l'écran, laxe Oz pointe dans la direction d’observation. Pour étendre l'intégration, nous 
introduisons donc la fonction de transparence de l'écran T(z, y). Elle est égale à un en tous points 
de l’orifice, à zéro partout ailleurs. Avec ces notations, en utilisant les résultats précédents, le champ 
diffracté à la distance r dans la direction k définie simplement par les composantes transverses k, et 
ky du vecteur k s'écrit: 


Qı e 


kr | 
lkr, ky,r) z FA F Î dxıdyı T (x1, y1 Je~ rtk) . (2.31) 


Nous retrouvons ici le résultat central des cours élémentaires sur la diffraction: l'amplitude dif- 
fractée est proportionnelle à la transformée de Fourier bidimensionnelle de la fonction de transparence 
T (kz, ky). Le terme nouveau dans notre approche est le préfacteur. Avant d’explorer rapidement 
les propriétés essentielles de la figure de diffraction, mentionnons que le calcul précédent peut être 
généralisé sans difficultés à une incidence arbitraire. L’onde incidente a alors une phase dépendant 
linéairement de la position dans l’orifice. Le résultat de ce facteur de phase additionnel est une simple 
translation de la transformée de Fourier. Essentiellement, la figure de diffraction est la même qu’en 
incidence normale mais elle se trouve centrée autour de la direction incidente (un résultat bien intuitif 
si on imagine une ouverture de très grande taille). Nous conseillons au lecteur d'établir les expressions 
correspondantes à titre d'exercice. 


2.3.2 Différentes expressions de la figure de diffraction 


Avant de nous pencher sur les propriétés générales de la diffraction, nous allons mettre (2.31) sous des 
formes équivalentes, correspondant à différents modes d’observation de la figure de diffraction. 

Notons tout d’abord qu’on peut facilement exprimer @ en fonction des angles a et 8 que font les 
projections dans les plans xOz et yOz du vecteur k avec l’axe Oz: 


a = RE 
B ky/k , 


ces angles étant tous petits dans l'approximation paraxiale. On a alors: 


ikr 

p(a,B,r) = a i dzıdyı T(x, yje Otón) (2.32) 

Telle que nous l’avons calculée, la figure de diffraction n’est observable qu’à l'infini (c’est à dire 
à une distance de l’écran grande par rapport à toutes les dimensions du problème). En pratique, on 
peut, par exemple, recueillir simplement la figure de diffraction sur un écran plan, perpendiculaire à 
Oz, situé à une distance D de l’origine. C’est la manière dont on procède quand la figure de diffraction 
est suffisamment lumineuse (par exemple quand on éclaire l’objet diffractant par un faisceau laser). 
En repérant les points de cet écran par leurs coordonnées x et y, on constate immédiatement que 
kz = kx/D et ky = ky/D. On peut alors mettre le champ reçu au point x, y sous la forme: 


Qı ekD 
D) = 2 


f dan Ta, y1 Je E/P Ertu) . (2.33) 


Si la figure de diffraction n’est pas très lumineuse, il peut être avantageux de l’observer à distance 
finie dans le plan focal d’une lentille convergente d’axe optique Oz. En repérant là encore le plan focal 
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par les coordonnées x et y, on montre facilement que la direction définie par a et 8 est conjuguée 
par la lentille du point x = fa, y = fE où f est la distance focale de la lentille. En omettant les 
préfacteurs (qui dépendraient dans ce cas de l’ouverture numérique de la lentille), on met alors la 
figure de diffraction sous la forme: 


olx, y) x J dzıdyı T(z, ge WG), (2.34) 


Pour toutes ces écritures différentes, la propriété essentielle demeure: la figure de diffraction est la 
transformée de Fourier à deux dimensions de la fonction de transparence. 


2.3.3 Généralisation à une transparence arbitraire 


Telle que nous l’avons définie, la fonction de transparence vaut 0 ou 1 et correspond au cas d’un 
écran qui est soit totalement absorbant soit totalement transparent. En réalité, un objet diffractant 
peut modifier continûment l’amplitude de l’onde incidente et altérer sa phase. L’onde incidente étant 
plane et normale au plan de l’écran, l’amplitude en amont de l’écran s’écrit toujours 1. La quan- 
tité qui intervient dans tous nos raisonnements pour déterminer le champ diffracté est la valeur de 
lľamplitude sur la surface S' qui est située en aval de l’écran. Si l’écran est suffisamment mince, son 
effet sur l’amplitude en un point est a priori une multiplication de l’amplitude incidente en ce point 
par un facteur réel de réduction (ou d'amplification) d’intensité et par une phase, c’est à dire par 
un facteur complexe. La condition pour que l’on puisse traiter aussi simplement la transmission par 
un objet de phase est que celui-ci soit assez mince*. Une lentille mince, par exemple, dans un plan 
situé immédiatement derrière elle, ne modifie que la phase de londe mais pas la répartition initiale 
d'amplitude. Il suffit pour cela, en termes de rayons lumineux, que la déviation d’un rayon dans la tra- 
versée de l’objet soit négligeable devant les dimensions transverses caractéristiques du problème. Une 
lentille mince, un verre inhomogène obéiraient à ces conditions. En revanche, une sphère diélectrique 
pleine ou un verre fortement dépoli (et donc constitué de micro-lentilles) ne les respecteraient pas. 
La fonction de transparence ainsi généralisée est donc une fonction à valeurs complexes. Toutes les 
expressions de la figure de diffraction obtenues dans les paragraphes précédents restent valables. 


2.3.4 Propriétés générales de la figure de diffraction 
Nous allons dégager dans ce paragraphe quelques propriétés générales de la figure de diffraction qui 
ne sont en fait qu’une réécriture des propriétés standard de la transformée de Fourier. 


Etendue spatiale et angulaire 


Il est bien connu que l’étendue de la transformée de Fourier est inversement proportionnelle à l’étendue 
de la fonction. Plus la fonction de transparence aura des variations rapides, plus elle sera localisée, 
plus la figure de diffraction sera ouverte. Plus précisément, si Azı est l’extension caractéristique de 
la fonction de transparence dans la direction x1, l'étendue de la figure de diffraction sera, en termes 
des différentes variables utilisées pour la décrire: 


e Ak,; = 1/A%; en termes des composantes du vecteur d'onde; 

e Aa = 1/(kAx:) en termes des coordonnées angulaires; 

e Ar = D/(kAzx:) pour une projection à linfini; 

e Ax = f/(kAx;) pour l’observation dans le plan focal d’une lentille. 

3Ce genre d’approximations est assez largement utilisé dans de nombreux domaines de la physique. On le rencontre 


en particulier en mécanique quantique pour décrire l’effet d’un potentiel localisé sur une onde plane incidente. Dans ce 
contexte, le régime qui nous intéresse porte le nom de “régime de Raman-Nath”. 
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Diffraction et translation 


Considérons deux écrans caractérisés par deux fonctions de transmission Tą et Tp. Nous supposerons 
que le second écran se déduit du premier par une simple translation spatiale: 


Tic, Y1) = Ta(z1 — Lo, Y1 — Yo) - (2.35) 


En notant ® et p les deux figures de diffraction et en omettant les préfacteurs pour alléger les 
notations, on a: 


Polke, ky) = J Teine e 
p J Talar- ao = yo)e™ tertem 


= R, Tai, ge ertu) (2.36) 


Les deux figures de diffraction sont donc identiques, à un facteur de phase près. A titre d’exercice, on 
pourra écrire ce facteur de phase pour les autres expressions de la figure de diffraction. 


Théorème des écrans complémentaires 


Considérons encore deux écrans, de fonctions de transmission Tą et Tẹ. Nous dirons que ces écrans 
sont complémentaires si: 
T+T=1. (2.37) 


Pour des écrans absorbants percés, la complémentarité exprime simplement que tout point opaque 
sur l’un est transparent sur l’autre et réciproquement. Un trou circulaire est ainsi complémentaire 
d’un obstacle circulaire de même diamètre. Les figures de diffraction a et sont simplement les 
transformées de Fourier de Tą, et Tp. La linéarité de la transformée de Fourier et la relation de 
complémentarité nous permettent donc d'écrire, en omettant une fois de plus les préfacteurs: 


PE J e~ikaritkun) v S(ky)ô(ky) . (2.38) 


On a donc: 


Pa = —b (2.39) 


partout sauf dans la direction de l’axe Oz. On en déduit le théorème des écrans complémentaires ou 
théorème de Babinet: les figures de diffraction de deux écrans complémentaires sont identiques sauf 
sur laxe. 

La différence entre les figures de diffraction sur l’axe a une origine très claire. Dans le cas d’un 
diaphragme circulaire, par exemple, il y a beaucoup moins (infiniment moins) de lumière transmise 
dans la direction initiale de l’onde plane éclairante que pour un obstacle circulaire complémentaire. 
Nous verrons dans le prochain chapitre qu’on peut utiliser un diaphragme circulaire pour filtrer une 
image optique. On peut par exemple purifier géométriquement un faisceau laser par ce moyen. Il est 
évident, bien que le filtrage soit fondé sur les propriétés de la figure de diffraction, que le faisceau 
transmis serait très différent si on utilisait un écran complémentaire, puisqu'il n’y aurait plus de 
lumière! 


2.3.5 Quelques exemples 


Nous rappellerons très brièvement dans ce paragraphe l’expression de quelques figures de diffraction 
très standard, auxquelles les cours élémentaires ont du familiariser le lecteur. Si ce n’était pas le cas, 
nous engageons le lecteur à rétablir ces expressions. 
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Fente 


Nous considérons d’abord une fente rectangulaire dont les côtés sont alignés avec les axes, de largeur 
a selon Ox, b selon Oy. Nous exprimerons la figure de diffraction ®; en termes des angles a et 8 et 
nous omettrons une partie des préfacteurs. On a: 


sin(kaa/2) sin(kßb/2) 


CR kB + 


(2.40) 
On se reportera aux manuels d'optique pour y voir cette figure de diffraction. 


Fentes d’Young 


Nous considérons deux fentes rectangulaires identiques à la précédente séparées par une distance £ 
le long de Ox. C’est la configuration de l’expérience des interférences d’Young, la plus simple des 
expériences d’interférométrie optique. La figure de diffraction ġy s’obtient immédiatement en utilisant 
les propriétés de translation et la linéarité de la transformation. On a: 


byla, B) = py(1+e it), (2.41) 


où @ est la figure de diffraction d’une des fentes. On peut, à partir de là, exprimer l'intensité diffractée: 
kal 
I(a, B) = AI cos? , (2.42) 


où Iş est l'intensité diffractée par une fente unique. La séparation entre les fentes étant bien sûr 
plus grande que leur largeur, la modulation due à la superposition des figures de diffraction des deux 
fentes est beaucoup plus rapide que l’extension de If. On retrouve donc des interférences modulant 
la figure de diffraction d’une fente unique. L’interfrange est, en termes de l'angle a, de 2r /kl = A/£, 
un résultat qu’on peut retrouver de manière élémentaire en considérant la différence de marche entre 
les deux rayons lumineux provenant des deux fentes. 


Réseau 


Le réseau généralise à N fentes disposées régulièrement les résultats précédents. On obtient, par les 
mêmes arguments: 


Pr X ®f (1 J e ‘rat m e ‘2kat ee Ne) 
t= e` iNkat 
D a 
l1—e 
sin kN al/2 
“sinkal/2 2.43 
~ PF gn kal/2 (2.43) 


Notons que nous avons éliminé un facteur de phase global sans importance physique en cours de calcul. 
®f est bien sûr la figure de diffraction d’une fente unique. L’allure de ®, est assez complexe. Elle 
présente essentiellement des maxima principaux pour 


À 
a = a , (2.44) 
où p est un entier. Ces maxima principaux sont appelés “ordres du réseau”. Leur largeur est de l’ordre 
de å/4N2. Ils sont donc beaucoup plus fins que la figure de diffraction de la fente ou que l’interfrange 
des fentes d’Young. Cette finesse est à l’origine du pouvoir de résolution élevé, proportionnel au 
nombre de traits, des réseaux utilisés en spectroscopie. 
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L’amplitude des maxima principaux est proportionnelle à N. L’intensité est donc quadratique dans 
le nombre de fentes, ce qui reflète l’addition cohérente des amplitudes issues des différentes fentes. Par 
“cohérente”, dans ce cas, on entend que ces amplitudes sont toutes en phase (plus généralement, 
on réserve ce terme aux cas où les amplitudes intervenant dans une sommation ont des relations de 
phase). 


Réseau aléatoire 


Posons-nous maintenant le problème d’un réseau de N fentes réparties aléatoirement et non plus 
régulièrement dans le plan. Nous noterons x;, y; la position du centre de chaque fente. Nous ne nous 
préoccuperons pas d'éventuels problèmes de recouvrement, supposant que les fentes sont suffisam- 
ment petites et de densité suffisamment faible. Cette situation modélise assez bien, par exemple, la 
diffraction par un brouillard (sur le pont de Tolbiac) de fines gouttelettes. En appliquant les mêmes 
arguments que précédemment, nous trouverons: 


pola, B) = pr De Otten) (2.45) 


®f étant encore une fois la figure de diffraction d’un objet unique. Nous pouvons clarifier un peu cette 
expression en calculant le carré de son module, c’est à dire l’intensité: 


2 


I(a,8) = 1; (2.46) 


5y e A(ari+Byi) 


j 


En développant le module carré dans cette expression, il apparaîtra deux types de termes. Nous aurons 
d’abord des termes carrés, au nombre de N, égaux tous à 1. Les doubles produits se regroupent bien 
sûr deux par deux pour ne donner qu’une somme de termes réels. Le nombre de ces termes est de N? 
et leur module “moyen” est de 1. Leur signe en revanche dépend des relations entre les phases. Si les 
ouvertures sont disposées au hasard sur l’écran, la valeur de cette somme est donc le résultat d’une 
marche aléatoire, ou “marche du marin ivre” le long de l’axe, avec N? pas de longueur moyenne 1. Il 
est bien connu que la distance ainsi parcourue est, en moyenne sur un grand nombre de réalisations, 
proportionnelle à la racine carrée du nombre de pas. La contribution des termes double produit à la 
somme est donc elle aussi de l’ordre de N. Au total, l'intensité diffractée est proportionnelle à N: 


I=NI;. (2.47) 


La figure de diffraction de cet ensemble aléatoire de fentes est simplement proportionnelle, en 
termes d'intensité, à la figure de diffraction d’une des fentes. On a là un résultat complètement 
différent de celui du réseau, où l’interférence entre les différentes figures de diffraction les modifiait 
complètement. Nous avons en effet ici une addition incohérente des amplitudes diffractées par les 
différentes fentes, en raison du caractère aléatoire des relations de phase entre ces amplitudes. Une 
manifestation de cette incohérence est le fait que l’intensité résultante est proportionnelle à N. Dans 
le cas d’une addition incohérente, ce sont les intensités qui s’ajoutent, alors que ce sont les amplitudes 
dans le cas d’une diffusion cohérente, résultant alors dans une intensité proportionnelle à N?. 

Pour en revenir à une illustration physique de ce phénomène, on aura avantage à observer, à grande 
distance, un réverbère à travers un brouillard de densité moyenne. On observera, autour de la tache 
centrale, des anneaux faiblement colorés. Ils correspondent effectivement à la figure de diffraction en 
lumière blanche d’une gouttelette “moyenne”. A partir de cette observation, on pourra s’amuser à 
estimer le diamètre moyen des gouttelettes. 


Chapitre 3 


Applications de la diffraction 


Nous allons brièvement passer en revue dans ce chapitre un certain nombre d’applications de la 
diffraction. Nous verrons en fait qu’elle peut jouer un rôle extrêmement néfaste dans des expériences 
d'optique, en limitant par exemple le pouvoir de résolution de nos instruments d’optique. Elle peut, 
dans le même temps, constituer un outil irremplaçable de traitement du signal optique. 

Nous commencerons par parler brièvement du pouvoir de résolution des instruments d'optique. 
C’est un sujet si vaste que nous ne ferons que l’effleurer. Nous consacrerons ensuite un paragraphe 
un peu plus étoffé aux techniques de traitement du signal optique. Nous décrirons en particulier la 
très belle méthode de Labeyrie qui permet, avec des instruments optiques basés au sol, de s’affranchir 
dans une large mesure de la perte de pouvoir de résolution due aux turbulences atmosphériques. Le 
paragraphe suivant sera consacré à une description qualitative de l’holographie et de quelques unes de 
ses applications. Nous dirons aussi un mot de la conjugaison de phase optique, observée en optique 
non linéaire, qui peut être vue comme une holographie en temps réel. Dans le dernier paragraphe de 
ce chapitre, nous verrons comment les notions de diffraction permettent de justifier qualitativement 
l’optique géométrique et la notion de rayon lumineux, ainsi que le principe de Fermat de chemin 
optique extrémal. 

Dans tout ce chapitre, nous resterons très qualitatifs. Nous n’écrirons pratiquement jamais d’équa- 
tions. Nous nous contenterons de discuter du contenu physique des effets rencontrés. En fait, aller 
plus loin peut entraîner à des calculs très complexes, tout à fait hors de propos ici. Par exemple, 
le calcul explicite du pouvoir de résolution d’un microscope optique est extrêmement complexe. On 
doit, en particulier, faire intervenir les propriétés de cohérence spatiale et temporelle de la lumière qui 
éclaire l’objet. Les lecteurs intéressés pourront trouver dans le Born et Wolf de longues discussions de 
ces différents problèmes. 


3.1 Pouvoir de résolution des instruments d’optique 


La taille finie des lentilles utilisées dans les instruments d’optique est une source de diffraction qui peut 
sévèrement limiter leur pouvoir de résolution. Le problème général étant complexe, nous ne discuterons 
qu’un cas particulier mais de grande importance pratique, celui de la lunette astronomique. Celle- 
ci est représentée sur la figure 3.1. Elle est constituée d’une première lentille, l’objectif, de grand 
diamètre D et de longue focale f. Cette lentille forme une image des objets situés à l’infini dans son 
plan focal. L’axe optique de la lunette étant z, nous repérerons les positions dans ce plan focal par des 
coordonnées x et y. Une étoile située à une distance angulaire œ de l’axe (dans le plan zæ pour fixer 
les idées) a son image en xz = — fa dans le plan focal. Une seconde lentille de beaucoup plus courte 
focale f’, l’oculaire, permet d'examiner “à la loupe” cette image. Le plan focal objet de l’oculaire est 
confondu avec le plan focal image de l’objectif. La même étoile donne donc, à la sortie de l’oculaire, 
un faisceau de lumière parallèle, c’est à dire une image à linfini. L’angle sous lequel est vue cette 
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À X 


Yı y 


Figure 3.1: Schéma de principe d’une lunette astronomique ou d’un télescope. z est son axe optique. Le plan de la 


lentille d’entrée, de focale f et de diamètre D est repéré par xı, yı. Le plan focal de cette lentille est repéré par x, y. 


image, œa’, est manifestement égal à —-af/f'. Le grandissement angulaire de ce dispositif afocal est 
alors simplement — f/f', beaucoup plus grand que 1 en module par construction. 

Nous avons ainsi décrit le fonctionnement de la lunette astronomique qui n’est plus guère usitée 
en raison de la difficulté de produire des lentilles de très grand diamètre de qualité et de trans- 
parence suffisantes. En revanche, les télescopes les plus modernes fonctionnent exactement sur le 
même principe, les lentilles étant remplacées par des miroirs sphériques ou paraboliques. Notre dis- 
cussion s’appliquera donc aussi bien à ces dispositifs, ainsi qu’aux jumelles, où on rajoute simplement 
un dispositif redresseur d’image pour obtenir une image droite. 

La lumière provenant d’une étoile lointaine est, à une excellente approximation, une onde plane 
(nous négligerons pour le moment les problèmes de phase dûs à la traversée de l’atmosphère). L’am- 
plitude dans le plan x1,y1 situé juste avant la lentille est donc une constante, si nous supposons pour 
un moment que l'étoile est sur laxe optique. Nous pouvons alors voir la correspondance entre les 
amplitudes dans les plans x1,7y1 et x,y comme une expérience de diffraction typique dans le régime 
de Fraunhofer. L'objet diffractant est louverture circulaire de la lentille d’entrée (le diaphragme 
d'ouverture). L'objectif donne clairement une image à distance finie de la figure de diffraction. Nous 
pouvons donc intuiter la forme de l’image reçue dans le plan focal. Au lieu d’une image strictement 
ponctuelle comme en optique géométrique (nous négligerons aussi les imperfections optiques de la 
lentille), on obtient une petite tache dont le diamètre est de l’ordre de fA/D, où À est la longueur 
d’onde incidente. La forme détaillée de cette tache, appelée tache d’Aiïry, s'exprime simplement avec 
la fonction de Bessel d’ordre 0. On en trouvera l’expression dans le Born et Wolf. Notons seulement 
qu’une tache centrale, de rayon 1.22fX/D est entourée d’une série d’anneaux, d'intensité rapidement 
décroissante. 

On peut estimer le pouvoir de résolution de la lunette en évaluant la distance angulaire minimale 
entre deux étoiles résolues dans le plan focal (on peut se convaincre aisément que l’oculaire ne limite en 
rien ce pouvoir de résolution si sa qualité optique est convenable). Il faut que les deux taches d’Airy 
soient séparées par au moins leur rayon. Il faut donc que fa > 1.22fX/D, soit encore a > A/D. 
Ce pouvoir de résolution est tout à fait remarquable pour les gros instruments. Si nous prenons 
une longueur d’onde incidente de l’ordre du micron et un diamètre d’entrée de l’ordre du mètre, la 
résolution théorique serait du micro-radian, c’est à dire de l’ordre du centième de seconde d’arc. 

En fait, comme nous le verrons dans un prochain paragraphe, l'effet de la turbulence atmosphérique 
limite le pouvoir de résolution des instruments basés au sol, même dans de très bonnes conditions at- 
mosphériques, au dixième de seconde d’arc environ. Le pouvoir de résolution d’un grand télescope 
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n’est donc pas supérieur à celui d’un télescope d’amateur, avec une ouverture d’une dizaine de cen- 
timètres. L’intérêt de construire de grandes machines est autre: il est de recueillir le plus de lumière 
possible pour pouvoir observer des objets plus faibles et donc sans doute plus lointains. Notons aussi 
que certaines techniques permettent de restituer à un grand instrument une partie de son pouvoir de 
résolution. La première et la plus astucieuse est la méthode de Labeyrie que nous discuterons dans le 
prochain paragraphe. L’autre, beaucoup plus récente, est l’optique adaptative. Comme l’atmosphère 
déforme le front d’onde de la lumière stellaire, l’idée est de compenser cette déformation en temps 
réel par une déformation opposée du système optique. Il faut pour cela disposer d’une référence. Ce 
peut être par exemple une étoile très brillante située à proximité de l’objet à imager. On interpose 
dans le trajet optique un miroir déformable actionné par des cales piézo-électriques. En asservissant 
la position de ces cales pour minimiser la taille de l’image de l'étoile de référence, on compense les 
fluctuations atmosphériques et on peut obtenir un pouvoir de résolution très amélioré, comparable 
à celui d’un télescope spatial. Les calculateurs modernes rendent possible cette correction en temps 
réel, à un coût infiniment moindre qu’une expérience embarquée. 

Si nous appliquons maintenant notre raisonnement à l’œil, nous pouvons estimer la limite à son 
pouvoir de résolution due à la diffraction par la pupille. Le diamètre de celle-ci est de l’ordre du 
millimètre, la longueur d’onde étant encore de l’ordre du micron. Le pouvoir de résolution angulaire 
devrait donc être du milli-radian. C’est effectivement, comme on pourra s’en convaincre aisément en 
examinant à distance les graduations d’une règle, l’ordre de grandeur du pouvoir de résolution d’un 
œil sain. Le plus remarquable n’est sans doute pas que nos ordres de grandeur soient corrects mais que 
le cristallin, lentille biologique, très adaptable, atteigne pratiquement la limite de résolution imposée 
par la diffraction. 

Nous pouvons aussi appliquer cette discussion au pouvoir de résolution d’un appareil photogra- 
phique. On l’exprime en général en “paires de traits par millimètres” dans le plan focal. En prenant 
le cas d’un objectif standard (f = 50 mm), ouvert à f/4, le diamètre D est de l’ordre du centimètre. 
Avec une longueur d’onde du micron, la limite de résolution angulaire est de 1074 radians. La distance 
correspondante dans le plan focal est de 5 um, correspondant à 100 paire de lignes par millimètre. On 
a effectivement obtenu la résolution moyenne d’un objectif de bonne qualité qui est donc bien limité 
seulement par la diffraction. 


3.2 Traitement optique du signal 


Ainsi que nous l’avons discuté dans le paragraphe précédent, la diffraction dans un instrument d’op- 
tique correspond à une opération de transformation de Fourier entre l’amplitude dans le plan de 
l'objectif et l’amplitude dans le plan focal. Une simple lentille est donc un calculateur analogique qui 
calcule, très bien, les transformées de Fourier bidimensionnelles. On peut donc l’utiliser pour réaliser 
des fonctions non triviales de traitement du signal. 


3.2.1 Filtrage spatial 


Considérons un des dispositifs optiques les plus simples, le télescope afocal représenté sur la figure 3.2. 
Il est identique à la lunette astronomique, si ce n’est que le grandissement vaut —1 puisque les deux 
lentilles, que nous continuerons à appeler objectif et oculaire pour simplifier, sont de même focale. 
Nous supposerons qu’un objet de transparence non uniforme est placé immédiatement avant la lentille 
d’entrée et nous nous intéresserons à la répartition d'amplitude sur la lentille de sortie. Ces deux 
répartitions d’amplitudes sont, si on néglige les imperfections dues à la diffraction par la taille finie 
des lentilles, exactement identiques à un grandissement total de -1 près. Si nous regardons maintenant 
le même dispositif, non du point de vue de l’optique géométrique, mais de celui de la diffraction, nous 
pourrons le trouver plus subtil qu’il n’y paraît. 
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Figure 3.2: Téléscope afocal de grandissement unité. Les plans d’entrée, focal image et de sortie seront repérés 


respectivement par les coordonnées transverses £1, Y1; L,Y et x2,y2. L’axe optique est encore l’axe z. 


La répartition d'amplitude dans le plan focal x,y est en effet la transformée de Fourier bidimen- 
sionnelle de la répartition d'amplitude dans le plan d’entrée x1,y1. L'objectif forme effectivement une 
image dans ce plan de la figure de diffraction de Fraunhofer. La répartition d'amplitude dans le plan 
de sortie est donc également la transformée de Fourier de la répartition d'amplitude dans le plan focal. 
En définitive, la répartition dans le plan x2,y2 est la double transformée de Fourier de la répartition 
dans le plan +1,y1. Elle lui est donc identique (à un changement de signe près pour l’orientation des 
axes en raison du grandissement négatif). 

L'intérêt du dispositif est que nous disposons, dans le plan focal, de la transformée de Fourier de la 
répartition incidente. Nous pouvons donc, en insérant à ce niveau un diaphragme d’amplitude ou de 
phase, modifier cette transformée de Fourier et donc la figure de sortie. L'application la plus simple 
est le filtrage spatial. Supposons que le faisceau incident soit un faisceau laser gaussien (voir appendice 
3). La répartition d’intensité devrait être une fonction lentement variable de la position. En raison 
d’effets d’interférences ou de défauts optiques, cette répartition est souvent imparfaite. Elle présente 
des structures à petite échelle (speckles ou tavelures) qui peuvent s’avérer très fâcheuses. Pour les 
éliminer, on peut insérer dans le plan focal un diaphragme de diamètre bien ajusté!. La répartition 
d'amplitude gaussienne doit en effet donner une tache de petit diamètre (essentiellement le diamètre 
correspondant à la limite de diffraction sur un diamètre d’entrée égal à celui du faisceau). Les tavelures 
et autres structures à petite échelle correspondent à des fréquences spatiales élevées et se retrouvent, 
dans le plan focal, à relativement grande distance de l’axe. Ces composantes de fréquence (spatiales) 
sont interceptées par le diaphragme. La répartition de sortie ne contient plus que les basses fréquences 
caractéristiques du faisceau gaussien qui se trouve donc “lissé” et débarrassé du bruit. Cette technique 
de “filtrage spatial” est extrêmement utile dans des expériences d’optique laser. 

On peut aussi utiliser le filtrage spatial pour des problèmes d’optique plus classique. On peut ainsi, 
par exemple, “détramer” des photographies. Une photographie très agrandie ou transmise par des 
moyens numériques rudimentaires présente un tramage. L'information utile, l’image, est multipliée 
par une fonction maximale sur les points de la trame, nulle à mi-chemin. En un mot, l’image présente 
un aspect “pixellisé”. Pour raisonner plus simplement, nous prendrons une image à une dimension. 
Imaginons qu’on ait tiré une épreuve de la photographie tramée sur film transparent. La figure utile 
peut alors s’exprimer comme une fonction de transparence F(x1). Elle est multipliée par le “tramage”, 


Les résultats de l’appendice 3 permettront au lecteur intéressé de calculer le waist du faisceau dans le plan focal. Le 
rayon du diaphragme est typiquement choisi égal à deux fois le waist. On pourra s’amuser à estimer la perte d'intensité 
résultant du filtrage. 
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que nous prendrons comme une fonction sinusoïdale de zı variant entre 0 et 1, sin?(x1/x0). Plaçons 
notre épreuve dans le plan d’entrée de notre télescope afocal et éclairons-la par une onde plane. Dans 
le plan focal, nous obtenons la transformée de Fourier de la fonction de transparence de l’épreuve 
G(x1) = F(x1)sin?(x1/0). 

Cette transformée de Fourier est le produit de convolution de la transformée de Fourier de F et de 
la transformée de Fourier de la sinusoïde. Celle-ci est constitué de trois pics de Dirac. L’un, sur l’axe, 
correspond au fait que cette fonction a une valeur moyenne non nulle. Les deux autres correspondent 
à la fréquence spatiale de cette fonction (apparaissant une fois pour les fréquences positives et une 
fois pour les fréquences négatives, puisque la fonction d’origine est réelle). Le produit de convolution 
est alors une opération triviale. On obtient, dans le plan focal, trois répliques de la transformée de 
Fourier de F', centrées sur les trois Diracs de la transformée de la fonction de tramage. Si la fréquence 
spatiale du tramage est très grande par rapport aux fréquences spatiales présentes dans F, ces trois 
répliques ne se recouvrent pas. On peut dire aussi que l’extension spatiale d’un “pixel” doit être très 
petite par rapport à l’extension spatiale des détails de l’image F pour que les trois images dans le plan 
focal soient distinctes. 

Si nous plaçons dans le plan focal un diaphragme qui ne laisse passer que la réplique centrale, 
nous calculerons, avec la seconde lentille, la transformé de Fourier de la transformée de F', légèrement 
tronquée dans l’espace des fréquences. La répartition d'amplitude en sortie ne contiendra que l’image 
photographique utile, débarrassée de tout tramage. Bien sûr, cela s’effectue au prix d’une perte globale 
d'intensité et d’une perte de résolution. Les plus petits détails visibles dans l’image de sortie sont plus 
grands que la taille caractéristique du tramage initial. Cette technique permet de s’affranchir d’une 
information parasite mais elle ne permet pas de recréer l’information perdue. Elle peut être généralisée 
pour effectuer d’autres traitements, plus complexes. On peut en particulier se débarrasser ainsi de 
certains flous photographiques (bougé, mauvaise mise au point...). Ces techniques, développées en 
particulier par Françon, sont maintenant un peu tombées en désuétude avec le traitement numérique 
du signal. Un calculateur est infiniment moins efficace qu’un afocal pour calculer une transformée 
de Fourier bidimensionnelle mais il est beaucoup plus versatile, évite les difficultés des plaques pho- 
tographiques et permet de réaliser des calculs autres que la transformée de Fourier (les transformées 
en ondelettes sont de plus en plus utilisées pour les traitement de signaux complexes). 

Nous avons décrit deux expériences où le filtrage diminue les fréquences spatiales présentes dans 
l’image. On peut l'utiliser aussi pour doubler, par exemple, une fréquence spatiale. L'expérience est un 
grand classique des montages d’agrégation. On dispose dans le plan d’entrée une grille de pas a (nous 
raisonnerons à une dimension). On observe alors dans le plan focal la transformée de Fourier de cette 
grille. Elle fait intervenir la fréquence spatiale fondamentale de la grille, 1/a, et tous ses harmoniques 
(seulement les harmoniques impairs pour une fonction carrée de rapport cyclique 0.5). On observe 
donc, de part et d’autre de l’axe, une série de taches équidistantes. Insérons maintenant, dans le 
plan focal, une grille de pas adapté qui ne laisse passer que les harmoniques pairs de la fréquence 
fondamentale. L'opération de transformée de Fourier effectuée par la lentille de sortie restituera alors 
une fonction modulée spatialement à une fréquence double de la fréquence initiale! En un mot, si le 
pas de la grille d’entrée est a, on observera en sortie une modulation (une grille) de pas a/2. Voici 
une expérience délicate mais spectaculaire qui illustre bien les possibilités du traitement optique du 
signal. 


3.2.2 Méthode de Labeyrie 


La méthode de Labeyrie utilise astucieusement les propriétés de la transformation de Fourier pour 
s'affranchir, dans les instruments astronomiques basés au sol, de l’influence de la turbulence atmo- 
sphérique. Comme prototype d’instrument, nous considérerons la lunette astronomique représentée 
sur la figure 3.1. Si atmosphère n'existait pas, la lumière provenant d’un étoile lointaine située sur 
laxe serait une onde plane d'amplitude constante dans le plan x1,y1 donnant, dans le plan focal, une 
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tache d’Airy dont le diamètre n’est limité que par la diffraction. 

En fait, atmosphère perturbe les surfaces d'ondes. Son effet, si elle n’est ni trop épaisse ni trop 
agitée (une bonne nuit d'observation astronomique dans un très bon site), est de multiplier l’onde 
incidente par un facteur de phase qui peut s’écrire dans le plan d’entrée exp iw(x1,y1,t). La fonction 
w est variable dans le temps. Dans un très bon site, elle reste stable pendant quelques dizaines de 
millisecondes. Elle varie de 27 sur une échelle spatiale Azı de l’ordre de 10 cm. La phase de Ponde 
étant complètement brouillée à cette échelle, on comprend bien pourquoi les plus grands télescopes 
n’ont pas un pouvoir de résolution meilleur que celui d’un télescope de 10 cm d'ouverture. Notons que 
cette vision de l'effet de l’atmosphère correspond seulement aux meilleures conditions d’observation 
astronomique dans un site calme et de haute altitude. Au niveau du sol, dans un lieu habituel, l’effet 
est beaucoup plus violent. Des effets de focalisation affectent phase et amplitude à une beaucoup plus 
petite échelle. Ce sont ces variations d'amplitude qui sont responsables du scintillement apparent des 
étoiles. 

La tache observée dans le plan focal est donc la transformée de Fourier de la fonction w, tronquée 
au diamètre D de l’ouverture de l’objectif. C’est donc le produit de convolution d’une tache d’Airy, 
d'extension fX/D, par la transformée de w. Celle-ci est très complexe, avec une taille totale de l’ordre 
de f\/Ax; et des détails à toutes les échelles jusqu’à celle de la fonction d’Airy. La tache focale est 
donc large (fA/Ax:) avec des détails dont la plus petite échelle est fA/D et change complètement 
au moins 100 fois par seconde. Une observation lente ne révèle donc qu’une vaste tache d’intensité 
uniforme: tout le pouvoir de résolution du télescope est perdu. 

En revanche, si la source est suffisamment intense pour qu’on puisse enregistrer la tache de diffrac- 
tion instantanée, elle révèle des speckles ou tavelures dont l’extension correspond encore au pouvoir 
de résolution théorique de l’instrument. On peut donc espérer, pour ces sources intenses, récupérer 
l'information. Pour illustrer la méthode, supposons que nous ayons à séparer deux étoiles. L’une est 
sur laxe, l’autre est dans une direction inclinée, dans le plan x1,2, d’un petit angle 0 par rapport à 
l’axe optique. Si l’atmosphère était absente, amplitude dans le plan d’entrée serait une constante 1 
pour la première étoile et vaudrait 2 exp k0x1 pour la seconde (k = 27/A). En fait, les deux ondes 
planes incidentes sont déformées par l’atmosphère. Si deux fonction w différentes agissaient sur les 
deux ondes, la situation serait sans espoir. 

Examinons donc les conditions dans lesquelles les deux ondes planes issues des deux étoiles sont 
multipliées par le même facteur de phase. Il faut que, dans la traversée de l’atmosphère dense, les 
deux ondes aient traversé les mêmes fluctuations d’indice. Il faut donc que l’écart maximum entre les 
trajets soit de l’ordre de la distance sur laquelle w varie notablement, une dizaine de centimètres en 
pratique. Cet écart est LO, où L mesure l’épaisseur de l’atmosphère. Notre calcul s’appliquera donc 
si LO < 10 cm. En prenant L = 10 km, on trouve 0 < 10° rd. La méthode de Labeyrie ne s'applique 
qu’à des étoiles séparées par une distance angulaire plus petite que 10 urd. Mais, en raison d’une 
coïncidence numérique remarquable, cette distance angulaire correspond précisément au pouvoir de 
résolution d’un télescope limité par les fluctuations atmosphériques, \/Azx;. Dès que les taches de 
speckle de deux étoiles commencent à être confondues, on peut commencer à appliquer la méthode de 
Labeyrie. On peut donc écrire les ondes incidentes sur la lentille d'entrée sous la forme: 


prevent) 
poet ELY) ikôx: 
Les ondes provenant des deux étoiles étant manifestement incohérentes, sans aucune relation de 


phase, les termes d’interférences sont nuls et les éclairements produits par les deux sources dans le 
plan focal de l'objectif s’ajoutent simplement: I = 1; + 12 avec: 


; 2 
neos | | prevent) ei / Dem un) (3.1) 


2 
L(x,y) = | qye tyt) Sikôz: —i(k/ Far +yur) (3.2) 
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= I(x a F0, y) , (3.3) 


le facteur de phase additionnel dans l’amplitude de la seconde étoile produisant une simple translation 
de la figure de diffraction. Notons que la translation correspond précisément à la distance entre les 
deux images dans le plan focal en optique géométrique. La tache obtenue dans le plan focal est donc 
la superposition de deux taches de speckle identiques, translatées de f0 l’une par rapport à l’autre. En 
corrélant la position des irrégularités de ces deux images, on pourra remonter à la distance angulaire 
entre les deux étoiles. 

En fait, on peut très simplement extraire l’information utile par une simple expérience de diffrac- 
tion. Si l’image enregistrée dans le plan focal de l’objectif est photographiée et l’épreuve développée, 
on obtiendra un objet dont la transmission est proportionnelle à l’intensité incidente I (pour un tirage 
en négatif, ce qui est en général le cas, l’opacité est proportionnelle à l’intensité incidente. Toute- 
fois, grâce au théorème des écrans complémentaires, la figure de diffraction d’un tirage positif et d’un 
négatif sont identiques). Eclairons alors cet objet par une onde plane. L’amplitude diffractée dans la 
direction définie par les angles a et 6 sera donnée par: 


glab) = | Iz,y)e ete) dedy . (3.4) 


Elle est donc la somme des transformées de Fourier de Jı et 12. Si g1(a, p) est la transformée de J, 
celle de Z2 est évidemment gı exp(—ika f0) puisque les deux répartitions d’intensité se déduisent l’une 
de lautre par une simple translation. Nous pouvons alors écrire l'intensité reçue dans la direction a, 8 
(qui en pratique serait reçue à distance finie au foyer d’une lentille) comme : 


I(a, B) = 2|g1|? (1 + cos ka f0) . (3.5) 


Le terme en |g1|? représente la transformée de Fourier de la tache de speckle. C’est donc une tache 
irrégulière dont l'extension maximale 1/k(D/Af) ~ D/f correspond à la taille minimale des speckles. 
Les structures intérieures ont une extension caractéristique Ax/f correspondant à l'extension totale 
de la tache de speckle. L’intensité diffractée totale superpose à cette tache aléatoire une modulation 
certaine à la fréquence kf0/2. L'examen de ces franges modulant la tache permet évidemment de 
mesurer la distance angulaire entre les deux étoiles. Il faut pour cela qu’on ait au moins une frange 
sur l'extension de la tache, ce qui s'exprime par: 


D 1 


F > f0k , (3.6) 
ou encore 
pare (3.7) 
D: : 


On peut donc séparer les deux étoiles dès que leur distance angulaire est plus grande que le pouvoir 
de résolution théorique du télescope en l’absence de toute perturbation atmosphérique. On a restitué 
à l'instrument tout son pouvoir de résolution! 

La méthode de Labeyrie peut maintenant être réalisée de manière numérique. En enregistrant un 
ensemble de taches de speckle, on peut, par des techniques de reconstruction d’image, restituer une 
véritable image bidimensionnelle. Elle ne peut toutefois s'appliquer qu’à des objets relativement lu- 
mineux. On doit en effet enregistrer la tache de speckle en un temps court par rapport aux constantes 
de temps des fluctuations de l’atmosphère. En pratique, cela impose des temps de pose entre la mil- 
liseconde et la dizaine de millisecondes. Seules des étoiles relativement proches sont assez lumineuses. 
L’optique adaptative, elle, ne souffre pas de cette limite et permet d’obtenir le pouvoir de résolution 
théorique, même avec des objets très faibles. 
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Figure 3.3: Principe de l’enregistrement et de la restitution d’une image holographique. À gauche, enregistrement. La 
plaque photographique enregistre l’interférogramme entre une onde plane de référence, dérivée de la source cohérente 
éclairant l’objet, et Ponde diffusée. A gauche, restitution. La plaque photographique, éclairée par Ponde de référence, 


diffracte entre autres une onde identique à l’onde provenant de l’objet: on obtient une image en relief. 


3.3 Holographie 


Une des applications les plus connues de la diffraction est sans conteste l’holographie qui est maintenant 
entrée dans le domaine des applications grand public. L'objet essentiel de l’holographie est de restituer 
une vision en relief de l’objet enregistré. Il faut pour cela être capable de stocker sur une plaque 
photographique non seulement le module de l’onde reçue (ce que fait la photographie ordinaire) mais 
aussi sa phase. La vision en relief n’est complètement restituée que si l’on dispose de tout le front 
d’onde de l’onde d’origine. Nous commencerons par exposer brièvement, sans entrer dans le détail 
des calculs, le principe de l’holographie, inventée par Gabor il y a plus d’un demi siècle, mais qui 
n’est guère entrée dans les applications pratiques qu'avec l’invention du laser. Nous donnerons ensuite 
brièvement quelques applications non ludiques de l’holographie. Nous montrerons enfin comment 
l’holographie peut être réalisée en temps réel avec un milieu optique non linéaire. 


3.3.1 Principe 


Le but de l’opération est de restituer toute l’information de l’onde o rayonnée par un objet éclairé 
par une source (nous ne considérerons ici que des rayonnements cohérents monochromatiques). Pour 
cela, on enregistre sur une plaque photographique une interférence entre l’onde @ émise par l’objet 
et une onde plane cohérente Y (dérivée du faisceau qui éclaire l’objet et provenant, en pratique, du 
même laser). Le principe de l'enregistrement de l’hologramme est représenté sur la partie gauche de 
la figure 3.3. L’amplitude reçue en un point de la plaque photographique est alors ø + Y. Après 
développement, la plaque photographique devient un objet dont la transparence en un point est: 


Tax, y) = |o]? + |F|? + ut +T. (3.8) 


Les deux premiers termes décrivent une information d’intensité qui ne présente guère d'intérêt. L’en- 
registrement holographique est en fait contenu dans les deux derniers termes, termes d’interférences 
et dépendant donc de la phase de l’onde diffusée. 

La restitution de l’hologramme consiste à éclairer la plaque photographique avec la même onde de 
référence Ÿ qu’à l'enregistrement. L’onde transmise a alors la forme TY qu’on peut écrire facilement 
comme: 


(Ib + I + ul é + vig* (3.9) 


Le premier terme est essentiellement une onde plane identique à londe de référence, multipliée par 
une fonction de transparence modulée qui introduira un fond de diffraction ne contenant guère 
d'informations. Le second terme est le terme essentiel. Il est en effet, à des facteurs d'amplitude 
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près, identique à l’onde diffusée par l’objet. On “voit” donc sortir de la plaque photographique, super- 
posée à une lumière diffuse due aux autres termes, l’onde diffusée par l’objet. En un mot, on observe 
en arrière de la plaque une image virtuelle de l’objet. 


Le dernier terme est important quant on éclaire la plaque holographique avec une onde Y*, c’est 
à dire une onde plane se propageant dans la direction inverse de Ÿ. Superposée au fond, on a en 
effet dans ce cas une onde d*, conjuguée de phase de londe émise par l’objet. Au lieu d’une onde 
divergente provenant de l’objet, on a une onde convergeant vers le symétrique de l’objet par rap- 
port à la plaque. En un mot, on observe une image réelle de l’objet en avant de la plaque. Ces 
“hologrammes avant” sont bien sûr beaucoup plus spectaculaires que les hologrammes arrière tradi- 
tionnels, parce que l’objet semble sortir de la plaque et flotter dans l’espace. Une visite dans une 
exposition d’hologrammes s’impose à ce point. Insistons encore sur le fait que l’hologramme restitue 
toute l'information. L’hologramme d’un objet sous une loupe, par exemple, contient l’objet, la loupe, 
mais aussi l’image de l’objet agrandi par la loupe! 


Nous pouvons, à partir de cette simple discussion, dégager les conditions expérimentales pour 
l’obtention d’un hologramme. D'abord, il est absolument crucial de disposer d'ondes présentant une 
stabilité de phase parfaite pendant le temps d’enregistrement. On peut réaliser une stabilité ap- 
prochée, comme le faisait Gabor, avec des sources ordinaires, convenablement filtrées spatialement 
et en fréquence. Mais leur intensité devient très faible, les temps de pose prohibitifs et on ne peut 
enregistrer que des hologrammes de petits objets très lumineux. La méthode ne présente d’intérêt 
pratique qu'avec une source laser, très intense et parfaitement cohérente temporellement. Il faut 
cependant que les distances relatives entre l’objet, le laser et la plaque photographique restent con- 
stantes à beaucoup mieux qu’une longueur d’onde pendant le temps de pose. Il faut donc un montage 
interférométriquement stable, ce qui rend plus difficile l'enregistrement d'objets mobiles ou la ciné- 
matographie holographique. Enfin, il faut que la plaque photographique ait un grain très fin pour 
enregistrer fidèlement un figure d’interférences dont le pas est évidemment de l’ordre de la longueur 
d'onde. Un grain aussi fin implique une sensibilité relativement basse et des temps de pose longs. 


Enfin, un point essentiel est de restituer l’hologramme avec une onde cohérente. Dans les pre- 
miers temps de l’holographie, on devait utiliser le laser d’enregistrement, ce qui rendait la lecture 
complexe. On a depuis mis au point des hologrammes visibles en lumière naturelle, tels ceux qui 
servent de cachet d’authentification sur les cartes de crédit. L’idée est tirée en fait du principe de la 
photographie Lippman en couleurs. Dans cette technique, on enregistre une image photographique 
avec une émulsion épaisse préparée sur un miroir. Une longueur d’onde donnée crée alors une onde 
stationnaire. Après développement de l’émulsion, on obtient des plans métalliques (argent) distants 
d’une demi-longueur d’onde du rayonnement incident (en incidence normale). Ces plans constituent 
une série d’interféromètres de Fabry Perot qui ne réfléchissent efficacement que les longueurs d’onde 
très voisine de celle d'enregistrement. Lippman pouvait ainsi réaliser des photographies de couleurs 
très réalistes avec une émulsion monochrome. Contrairement aux photographies couleurs basées sur 
des pigments, celles de Lippman sont parfaitement stables à la lumière et conservent leurs couleurs 
après près d’un siècle. Dans le domaine de l’holographie, le même principe peut être utilisé pour ne 
réfléchir que les longueurs d’onde voisines de la longueur d’onde incidente et fournir une cohérence 
suffisante pour lire l’hologramme. Cela explique aussi que les couleurs interférentielles observées sur 
ces hologrammes en lumière naturelle changent rapidement avec l’angle d’incidence. 


Notons enfin que l’information sur l’objet est délocalisée sur toute la surface de l’hologramme. 
Une portion quelconque de l’hologramme peut être utilisée pour la reconstruction. Elle régénère 
en effet toute l’amplitude diffusée par l’objet et pas, comme on pourrait s’y attendre intuitivement, 
l’amplitude diffusée par une partie de l’objet seulement. On y perd seulement sur le champ de vision 
(l’objet apparaît vu à travers la plaque holographique) et sur la résolution spatiale de la reconstruction 
(un peu de la même manière qu’on perd sur la résolution spectrale d’un réseau en diminuant le nombre 
de traits). 
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3.3.2 Applications 


Au delà d’aspects ludiques ou artistiques, l’holographie est un précieux moyen d’observation. Une 
application industrielle particulièrement importante est la visualisation des vibrations des machines 
en mouvement. Supposons qu’on prenne, à un instant t, un hologramme instantané d’une machine en 
fonctionnement. On peut réaliser ce genre d’hologramme en utilisant un laser en impulsions brèves. La 
durée d’impulsion, en général de l’ordre de la dizaine de nanosecondes, est assez brève pour que tous 
les points de la machine puissent être considérés comme immobiles, assez longue cependant pour que 
le faisceau soit cohérent (la longueur de cohérence est alors de quelques mètres?). L’onde enregistrée 
sur la plaque holographique sera notée 9. Pour simplifier notre analyse qualitative, nous considérerons 
d’abord que la machine est réduite à un seul point en mouvement. A l'instant t, nous avons donc réalisé 
l’hologramme d’un point à la position r. A un instant ultérieur t’, on enregistre, sur la même plaque, 
londe # correspondant à la nouvelle position r’ du point. On développe (ou on traite numériquement 
dans les versions modernes). La transmission de la plaque contient alors un terme en Y*(4 + g’). 
L'onde restituée est alors +4. On aurait la même image en éclairant, à un seul instant, deux points 
sources situés aux positions r et r’ avec une seule source cohérente. La relecture de l’hologramme doit 
donc fournir des interférences entre ces deux points sources cohérents. Quand on tient compte de tous 
les points de l’objet en mouvement, on observe sur l’image reconstituée des franges d’interférences 
qui révèlent les déplacements de l’objet entre les instants t et t. Ces franges sont analogues aux 
franges d’égale épaisseur des lames minces d’air. Elles sont localisées à la surface de l’objet. Le simple 
examen de l’image holographique révèle les mouvements avec une résolution égale à la longueur d’onde 
optique. En synchronisant les impulsions laser sur le fonctionnement de l’appareil, on peut réaliser 
une analyse stroboscopique des vibrations. Cette méthode n’est pas plus sensible que les méthodes 
interférométriques standard mais elle permet une vue d'ensemble du mouvement de la pièce. 

Une autre application importante de l’holographie est la réalisation de composants optiques. Imag- 
inons, par exemple, qu’on prenne l’hologramme d’un point source. Eclairé par londe de référence, 
une onde plane, il fournit une image virtuelle du point source. L’onde plane incidente se transforme 
en une onde sphérique divergente. L’hologramme se comporte donc comme une lentille divergente. 
Si, au contraire, on réalise un hologramme avant du point source, l’onde plane incidente devient une 
onde sphérique convergente et l’hologramme est une lentille convergente. 

Réaliser ainsi une simple lentille ne présente guère d’intérêt dans le domaine optique. L’intensité 
de londe reconstituée est en effet notablement inférieure à l’intensité de londe transmise. L'intérêt est 
plus important quand on entre dans le domaine des rayons X. Tous les matériaux dans ce domaine ont 
en effet un indice de réfraction extrêmement voisin de un et il est impossible de réaliser des composants 
d’optique réfractive. On peut réaliser des miroirs avec des matériaux cristallins mais ils ne fonctionnent 
qu’en incidence rasante et sont extrêmement coûteux. En revanche, on peut aisément fabriquer, par 
des techniques de microlithographie, des structures absorbantes avec des détails extrêmement fins. 
On peut donc synthétiser l’hologramme qui se comportera comme une lentille. Un domaine nouveau 
de microscopie X a pu apparaître ainsi avec les optiques holographiques et les sources intenses de 
rayonnement synchrotron. En utilisant l’analogie formelle entre équations de Maxwell et équation 
de Schrödinger, on peut aussi préparer des hologrammes pour des ondes de matière. Il est ainsi 
possible de focaliser des ondes de matière ou de réaliser des images avec des atomes refroidis par 
laser. Avec des températures ordinaires, les longueurs d’onde de de Broglie des atomes sont si petites 
(de l’ordre du picomètre) qu’on ne peut réaliser les structures correspondantes. Avec des atomes 
refroidis, en revanche, la longueur d’onde de de Broglie est de l’ordre d’une longueur d’onde optique. 
On peut alors aisément réaliser des structures holographiques. Les très belles expériences de Shimizu 
(Tokyo) ont démontré la faisabilité de cette technique qui pourrait être employée dans le domaine de 


?La longueur de cohérence, dans ce cas très simple, est au plus égale au produit de la vitesse de la lumière par la 
durée de l’impulsion. Il s’agit de la différence de marche maximale qui donne lieu à des interférences visibles dans un 
interféromètre de Michelson 
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Figure 3.4: Pincipe d’une expérience de conjugaison de phase optique, qui se ramène à une holographie en temps réel. 


la microlithographie pour des dépôts très bien contrôlés. 

Les composants holographiques sont utiles également pour réaliser des fonctions optiques non 
classiques. Le balayage du faisceau laser sur le tambour photosensible des imprimantes laser ou du 
faisceau des lecteurs de codes barres, par exemple, est réalisé par un miroir holographique mis en 
rotation. Le coût de production de masse de ces objets est infiniment inférieur à celui des miroirs 
prismatiques initialement utilisés. 


3.3.3 Holographie et conjugaison de phase 


Telle que nous l’avons décrite jusqu'ici, l’holographie procède en deux temps: enregistrement de la 
figure d’interférences et restitution ultérieure. Il est possible de réaliser les deux étapes simultanément 
si on peut disposer d’un matériau dont l’indice ou l’absorption dépende de l'intensité en chaque point. 
C’est effectivement le cas avec les matériaux optiques non linéaires. Considérons le dispositif représenté 
sur la figure 3.4. Un cristal spécial (on utilise souvent du Niobiate de Lithium ou une de ses variantes) 
est éclairé par deux ondes planes intenses contra-propageantes, Ÿ et Y*. On envoie, dans une autre 
direction, une onde ®@ qui joue le rôle de l’onde diffusée en holographie. Les ondes Y et W* vont bien 
sûr jouer le rôle des ondes de référence et de reconstruction. Le matériau non linéaire acquiert, en plus 
de la polarisation linéaire qui décrit simplement l’indice, une densité de polarisation P proportionnelle 
au produit de trois termes qui sont les champs incidents ou leurs complexes conjugués. Pour décrire 
vectoriellement ce processus, il faudrait bien sûr une polarisabilité tensorielle de rang 4. Pour une 
discussion qualitative, nous nous contenterons de voir que cette non-linéarité confère au milieu un 
indice de réfraction n qui, en plus d’un terme constant correspondant à la réponse linéaire (voir partie 
5), présente un terme non linéaire proportionnel à l'intensité. Parmi tous les termes apparaissant 
dans le développement de cette non-linéarité sur les amplitudes des différentes ondes, on aura ceux 
correspondant à |ġ + Y{?. Sur le milieu, s'inscrit donc un réseau de modulation d'indice à trois 
dimensions, qui est précisément l’hologramme de l’onde par l’onde de référence Y. La “lecture” 
simultanée de cet hologramme par londe Ÿ* va fournir une onde * qui est précisément la conjuguée 
complexe de l’onde 9. Ce milieu réalise donc la conjugaison de phase de l’onde incidente, ce qui ne 
peut s’effectuer par aucun dispositif d'optique linéaire. 

Nous avons ici vu de manière globale le principe de la génération. On peut aussi le comprendre 
en termes holographiques. Le mélange de Ÿ et de ġ crée dans le milieu non linéaire une répartition 
d'intensité qui n’est autre que l’hologramme de l’onde ® avec la référence Y. En raison de son caractère 
non linéaire, le milieu acquiert un indice de réfraction modulé spatialement par cet hologramme. 
L’onde Y* est diffractée par cette répartition d’indice. En fait, elle vient simplement lire l’hologramme 
avant et recrée l’onde ġ*. 

Un tel miroir à conjugaison de phase présente des propriétés optiques extraordinaires. Imaginons 
qu’on place en face de lui un point source. Il crée une onde sphérique divergente. En se réfléchissant sur 
le miroir, elle devient une onde sphérique convergente qui revient se focaliser exactement sur le point 
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Figure 3.5: Passage à la limite géométrique. L’amplitude reçue du point source À au point B peut se mettre sous la 
forme d’une somme de termes associés à toutes les lignes brisées passant de À à B ou de tout chemin à la limite continue. 


Seuls les chemins proches de la trajectoire prévue par l’optique géométrique contribuent notablement. 


source. Quand on sait que rien n’empêche un miroir à conjugaison de phase d’avoir un coefficient 
de réflexion supérieur à un (l’énergie nécessaire étant prise dans les ondes intenses Ų et Y*), on 
comprendra l'intérêt potentiel de ce dispositif. On peut ainsi par exemple réaliser un laser constitué 
d’un miroir à conjugaison de phase et de n'importe quel objet vaguement réfléchissant passant à 
proximité. La conjugaison de phase assure le retour parfait de l’onde sur l’objet réfléchissant et les 
conditions de phase correctes pour créer une cavité. 

On peut aussi utiliser la conjugaison de phase pour optimiser les communications. Dans un 
matériau hétérogène comme l’atmosphère, la propagation distord les fronts d’onde. Un point source 
donne donc un front d’onde loin de la forme sphérique idéale. Si on renvoie cette onde par un miroir 
à conjugaison de phase, on change le signe des défauts de phase. Le retour inverse dans le milieu (s’il 
n’a pas notablement varié pendant le temps d’un aller et retour) annule exactement ces défauts et 
l’onde de retour se focalise exactement sur le point source comme s’il n’y avait pas eu de défauts. 


3.4 Limite de l’optique géométrique 


La diffraction peut nous permettre de mieux comprendre comment se fait le passage de l’électromagné- 
tisme de Maxwell à la notion de rayons lumineux. Ce point sera discuté très en détail dans l’appendice 4 
à cette partie mais nous allons donner ici l’essentiel des arguments qualitatifs nécessaires. Nous venons 
de voir qu’une onde plane est très peu affectée, très peu diffractée, si elle ne passe qu’à travers des 
ouvertures ayant une taille notablement plus grande que À. Il est donc possible de réaliser un pinceau 
lumineux rectiligne, dans un milieu homogène, dont l’extension soit grande devant À et néanmoins très 
petite à l’échelle macroscopique qui est celle de la plupart des composants optiques. Nous venons de 
retrouver la notion de rayon lumineux. Comme les lois de changement de vecteur d’onde au passage 
entre deux matériaux diélectriques sont précisément les lois de Descartes (on consultera à ce sujet la fin 
de la cinquième partie), ces rayons lumineux obéissent précisément aux lois de l’optique géométrique. 

Nous allons préciser un peu ces notions en montrant qualitativement, à partir de la formule de 
Kirchhoff, qu’on peut exprimer le champ reçu en un point comme une somme d’amplitudes associées à 
différents chemins possibles connectant ce point au point source. Nous montrerons alors que seuls les 
chemins situés dans un tube d’une extension transverse de quelques À autour de la trajectoire prédite 
par l’optique géométrique contribuent effectivement à la somme. La situation que nous décrivons est 
représentée schématiquement sur la figure 3.5. 

On cherche à calculer l’amplitude reçue en B, la source étant située en A. Nous supposerons 
d’abord que le milieu entre À et B est homogène. Formellement, en utilisant la formule (2.24), on 
peut exprimer le champ (au sens d’une composante du potentiel) en B en fonction du champ sur une 
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surface Sn entourant complètement B et passant à très faible distance au niveau de la ligne droite 
qui joint À à B. Nous n'avons pas ici d’approximation liée au principe de Huyghens, puisqu'il n’y a 
pas de diaphragme. Pour une surface Sn suffisamment régulière, les approximations assimilant l’onde 
incidente à une onde plane (au moins localement) et la surface à un plan (localement là aussi) sont 
sans doute valables. On aura donc: 


da [x EDEN ED ag, (3.10) 


rn — rp] 


où r est la position courante sur Sn, Ọn l'amplitude en ce point et Xn le facteur d’inclinaison 
géométrique. 

L’amplitude ģn peut elle aussi s'exprimer comme l'intégrale sur une surface Sp—1, proche de Sh. Et 
ainsi de suite, jusqu’à une surface Sı entourant immédiatement le point source A. On aura finalement 
ġ comme une intégrale sur toutes les surfaces simultanément, c’est à dire, aussi bien, une intégrale sur 
toutes les lignes brisées qui passent de À à B en s'appuyant sur les surfaces intermédiaires. Le terme 
à intégrer contient des termes d’amplitudes, lentement variables et de peu d'importance comme on le 
verra. Le terme important est le terme de phase qui s'écrit simplement: 


explik(AM\ + MM +...+M,B) = e"£, (3.11) 


où les M; sont les points de la ligne brisée sur les surfaces intermédiaires et L est la longueur totale 
de la ligne brisée. 

Les phases associées à deux lignes brisées différentes sont complètement différentes dès que ces 
lignes s’écartent l’une de l’autre d’une petite fraction de À. Les amplitudes étant comparables, les 
contributions à l’amplitude de toutes ces lignes sont négligeables. Toutes, sauf celles qui se trouvent 
au voisinage d’une trajectoire qui rend extrémale la longueur du trajet. Il s’agit en l’occurrence d’un 
minimum et de la simple ligne droite entre À et B. Toutes les trajectoires ne s’écartant que de quelques 
À par rapport à cette ligne contribuent de façon équivalente à la somme. Toutes les trajectoires passant 
plus loin ont une influence négligeable. On peut donc insérer un diaphragme de taille grande devant 
À au voisinage de cette ligne droite sans modifier la propagation: on retrouve bien, de façon moins 
qualitative, la notion de rayon lumineux. 

Notons que le raisonnement que nous faisons ici dans le domaine optique peut s’appliquer, avec des 
modifications mineures, à la mécanique quantique. On trouve qu’une amplitude de transition est la 
somme d’amplitudes associées à tous les chemins possibles entre l’état initial et l’état final. Dans une 
limite semi-classique, les effets quantiques sont presque négligeables et seuls contribuent les chemins 
situés à quelques longueurs d’onde de de Broglie de la trajectoire classique. 

Le raisonnement précédent peut être aisément modifié pour prendre en compte les inhomogénéités 
de l’indice de réfraction du milieu. Le vecteur d’onde local étant proportionnel à l’indice, on trouve 
que le facteur de phase peut s’écrire dans ce cas: 


expliko(n1 AM + naMı Mə ++. + nn MhB)] = eFo Jra : (3.12) 


où n; est l'indice au voisinage du point M;. On trouve donc que ne contribuent notablement que les 
trajectoires situées au voisinage immédiat de celles qui extrémalisent l’intégrale f ndl, c’est à dire le 
temps de parcours. En un mot, nous retrouvons le principe de Fermat qui est à la base de l’optique 
géométrique. Encore une fois, ces raisonnements ne sont que qualitatifs. Nous les rendrons beaucoup 
plus précis dans l’appendice 4. 
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Appendice 1 


Jauges 


Nous reviendrons très brièvement dans cet appendice sur les problèmes de choix de jauge. Nous savons 
bien que les équations de Maxwell et donc toutes les prédictions physiques sont invariantes dans une 
modification des potentiels s’écrivant: 


AM = A! + "o (1.1) 
en notations quadridimensionnelles ou 
A’ = A+Vọ (1.2) 
op 
V = V- 1. 
zi (1.3) 


en notations standard, @ étant, dans ces expressions, une fonction arbitraire de l’espace et du temps. 
On peut utiliser cette liberté de jauge pour tenter de simplifier la forme des équations décrivant les 
potentiels. 

Le choix le plus répandu, celui que nous avons déjà largement utilisé, est celui de la jauge de 
Lorentz qui s'écrit: 


ðA” =0 (1.4) 
ou encore 18V 
V-A+55 =0. 1. 
+2 0 (1.5) 


Cette jauge a plusieurs mérites. D'abord, elle est réalisable. Partant de potentiels 4'# vérifiant 
une condition de jauge arbitraire, on peut leur rajouter la 4-divergence d’une fonction @ pour qu’ils 
vérifient la jauge de Lorentz. Il suffit pour cela de résoudre: 


3I p = ILA" , (1.6) 


ce qui est possible avec des conditions aux limites ordinaires (tous les potentiels nuls à linfini dans 
l’espace temps). Ensuite, la jauge de Lorentz est explicitement covariante : elle s’écrit comme la nullité 
d’un 4-scalaire. Enfin, et ce n’est pas son moindre mérite, elle conduit à des équations aux potentiels 
extrêmement simples, puisqu'elles découplent le potentiel vecteur dont la seule source est le courant 
et le potentiel scalaire dont la seule source est la densité de charges. Nous avons vu dans le premier 
chapitre que ces équations admettaient la solution explicite en termes de potentiels retardés. 

Si la jauge de Lorentz présente des avantages importants, il en est une autre qui est largement 
utilisée, en particulier dans le domaine de la physique atomique. C’est la jauge de la magnétostatique, 
ou jauge de Coulomb. Elle s’écrit 

V-A=0. (1.7) 


Manifestement, elle n’est pas covariante. Si elle est satisfaite dans un référentiel, elle ne le sera plus 
après une transformation de Lorentz. Cette jauge n’a donc de sens que dans un référentiel donné, 
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dans lequel nous nous placerons désormais. Nous devons maintenant vérifier que cette jauge peut être 
satisfaite. Supposons qu’on ait des potentiels A’ et V’ qui ne satisfont pas à la jauge de Coulomb. 
Les potentiels issus d’une transformation de jauge y satisferont à condition que Ag = -V : A’. 
Cette équation est l’équation de Poisson de l’électrostatique qui admet une solution unique avec des 
conditions aux limites convenables. On peut donc toujours choisir de travailler en jauge de Coulomb. 

Ecrivons maintenant les équations aux potentiels dans cette jauge. En raison de la jauge, V - E = 
—AV et l'équation de V s’écrit simplement: 


Apr (1.8) 


€Q 


C’est tout simplement l'équation de l’électrostatique. En jauge de Coulomb, le potentiel scalaire se 
calcule comme en électrostatique. C’est donc un potentiel instantané, en ce sens que le potentiel en 
r,t dépend des sources en rı au même instant: 


n 1 p(r1; t) 
4reo J |r — ril 


dri. (1.9) 


Bien sûr, l’électromagnétisme ne violera pas pour autant la causalité relativiste. Les champs électriques, 
eux, ne dépendront que des sources aux instants retardés. Clairement, tout l’intérêt de la jauge de 
Coulomb réside dans cette simplicité du potentiel scalaire. En physique atomique, par exemple, on 
traite le couplage d’un atome, en liaison coulombienne, avec un champ oscillant. Tout naturelle- 
ment, la jauge de Coulomb séparera dans la dynamique du système le champ statique liant l’électron, 
représenté par le simple potentiel scalaire, du champ oscillant incident. 

L’équation au potentiel vecteur est en revanche plus complexe. En écrivant que V x B = V x 
(V x A) = oj + (1/2)0E/ðt et en substituant l'équation donnant le champ électrique en fonction 
des potentiels: de 

[L] A= -u+ . (1.10) 
Cette équation est beaucoup plus complexe que l’équation au d’alembertien obtenue en jauge de 
Lorentz. Elle couple effectivement le potentiel vecteur au gradient du potentiel scalaire. En un mot, 
la résolution d’un problème d’électromagnétisme en jauge de Coulomb revient à d’abord trouver le 
potentiel scalaire électrostatique, pour ensuite l'utiliser comme terme source dans le potentiel vecteur. 
Nous verrons dans le prochain appendice comment on peut aborder le problème en séparant variables 
longitudinales et transverses du champ. 


Appendice 2 


Espace réciproque 


Nous utiliserons dans cet appendice la transformation de Fourier sur les variables d’espace (nous 
garderons le temps à part pour conserver sous forme directe les propriétés dynamiques) pour transposer 
les équations de Maxwell dans l’espace réciproque. Après avoir défini les transformations mises en jeu, 
nous définirons dans le premier paragraphe les champs transverses et longitudinaux. Nous montrerons, 
dans le second paragraphe, que la jauge de Coulomb introduite dans l’appendice précédent permet 
de séparer très naturellement la dynamique des champs longitudinaux, purement électrostatiques, de 
celle des champs transverses. Nous nous pencherons alors sur la dynamique des champs transverses 
dans l’espace libre et nous explorerons l’analogie formelle entre l’électromagnétisme et la dynamique 
de l’oscillateur harmonique en introduisant les variables normales du champ. Nous montrerons enfin, 
dans un dernier paragraphe, le lien entre cette approche et la décomposition en ondes planes introduite 
dans les classes élémentaires. 

Au delà d’une simple curiosité, cet appendice est en fait une introduction directe à la quan- 
tification du champ. C’est en effet en termes de variables normales ou de collection d’oscillateurs 
harmoniques qu’on quantifie le champ. Nous n’aborderons pas du tout ici cette quantification dont 
nous ne ferons que planter les jalons classiques. Un exposé très clair en est donné dans “Introduction 
à l’électrodynamique quantique” de Cohen, Dupont-Roc et Grynberg. 


2.1 Espace réciproque 


Nous allons simplement écrire dans ce paragraphe les équations de l’électromagnétisme (équations de 
Maxwell et équations aux potentiels) en termes de transformées de Fourier spatiales (l’approche est 
donc un peu différente de ce que nous avions fait pour établir l’expression de la fonction de Green). 
Les opérateurs de l’analyse vectorielle devenant de simples vecteurs, l’écriture de ces équations sera 
bien sûr beaucoup plus simple que dans l’espace réel. 


2.1.1 Transformation de Fourier 


Nous transformerons les quantités scalaires et vectorielles. Le champ électrique s’écrira par exemple: 


— 1 3 ikr 
E(r,t) = on Pk E(k, ter. (2.1) 
La transformation inverse s'écrit: 
1 3 —ik-r 
E(k, t) = a / drE(r,te kr | (2.2) 
Le champ électrique étant réel, il vérifie: 
E” (r,t) = E(r,t). (2.3) 
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On a donc: 


J E* (k, tje ET dk = Î Elk, tek" k = J E(—k, te TX | (2.4) 
Si cette propriété est vraie pour tout r, alors: 
E(-Kk,t) = E*(k,t). (2.5) 


Nous ferons la même opération sur le champ magnétique (transformée de Fourier B), les potentiels A 
et V et les sources (5 et j). En termes de ces variables, les équations de Maxwell s’écrivent simplement: 


ikxE = -B (2.6) 
ikxB = oj +EË/ (2.7) 
ik-E = p/o (2.8) 
ik-B = 0 (2.9) 


(nous avons indiqué par un point les dérivations temporelles dans l’espace réciproque pour alléger les 
notations). L’équation de conservation de la charge devient: 


ik-j+5=0, (2.10) 
les liens entre champs et potentiels s’écrivent: 


B = ik x A (2.11) 


E = -iky —- A. (2:12) 
Enfin les jauges de Coulomb et de Lorentz s’écrivent respectivement: 
ik. A= 0 (2.13) 
et 
ik- A+V/c? =0. (2.14) 


Le lecteur pourra à titre d'exercice transposer ainsi d’autres équations importantes de l’électromagné- 
tisme. 


2.1.2 Champs longitudinaux et transverses 


Les équations de Maxwell dans l’espace réciproque font intervenir des produits scalaires et vectoriels 
avec le vecteur d'onde. Il est donc logique et probablement fructueux de décomposer les champs et po- 
tentiels vectoriels en leurs composantes longitudinales, parallèles à k, et transverses, perpendiculaires 
à k. Introduisant le vecteur unitaire k = k/k, nous définirons par exemple la partie longitudinale du 
champ électrique dans l’espace réciproque par: 


E= (k-E)k (2.15) 


et la partie tranverse par: 
Er=kx(Ex#). (2.16) 


Le champ électrique total dans l’espace réciproque est bien sûr la somme de ses composantes longitu- 
dinales et transverses: 


E(k,t)=EI+E1. (2.17) 


La même décomposition peut s’effectuer pour le champ magnétique et le potentiel vecteur. 
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La linéarité de la transformation de Fourier nous permet alors d'écrire les champs dans l’espace 
réel comme une somme de deux composantes, transformées de Fourier inverses des champs transverses 
et longitudinaux dans l’espace réciproque. On aura ainsi: 


E(r,t) = E(r,f) + E1 (r,t) , (2.18) 


où Ej est la transformée de Ej et E] celle de E1. Il est évident que les désignations “longitudinal” ou 
“transverse” ne correspondent à aucune propriété géométrique particulière dans l’espace réel. Seuls les 
champs dans l’espace réciproque ont une interprétation géométriquement simple. Notons aussi qu’on 
peut exprimer directement les composantes transverses (et donc, par différence, longitudinales) du 
champ dans l’espace réel à partir du champ total. La transformation fait intervenir un noyau intégral 
qu’on trouvera détaillé dans Introduction à l’électrodynamique quantique de Cohen. On y constatera 
que l’expression d’une des composantes du champ transverse fait apparaître toutes les composantes 
du champ complet. 

Les conditions de Jauge s'expriment facilement en fonction des composantes transverses et longi- 
tudinales. La jauge de Coulomb, en particulier, devient très simple, puisqu'elle exprime simplement 
que le potentiel vecteur À est purement transverse. On a donc: 


Aj =0. (2.19) 


Cette jauge, en dépit de son manque d’invariance relativiste, rend beaucoup plus simple la géométrie 
des champs dans l’espace réciproque. 

Nous nous placerons donc, jusqu’à la fin de cet appendice, en jauge de Coulomb. 

Comme À est transverse, k x A = B l’est aussi, ainsi que 0.4/ôt. En revanche, le gradient du 
potentiel scalaire est longitudinal. On a donc directement: 


E = -A (2.20 
Ell = —ikV. (2.21 


En jauge de Coulomb, le potentiel scalaire se calcule comme en électrostatique. Le champ électrique 
longitudinal dans l’espace réel Ej est donc simplement le champ électrique calculé comme en électrosta- 
tique! On voit ici, de manière plus détaillée que dans l’appendice précédent, tout l’intérêt de la jauge de 
Coulomb pour traiter un problème de physique atomique. Considérons un atome d'hydrogène soumis 
à une onde plane et essayons d’écrire les équations du mouvement de l’électron. L’onde incidente n’a 
pas de potentiel scalaire. Le champ électrique longitudinal est donc entièrement dû au proton. Il se 
calcule comme en électrostatique et donne un potentiel de liaison Coulombien en 1/r. L’onde plane, 
pour sa part, contribue uniquement à la partie transverse des champs. De manière toute naturelle, la 
jauge de Coulomb sépare la contribution, en général dominante, de l’interaction électrostatique avec 
le noyau de la contribution du champ incident. Cette dernière peut souvent être considérée comme 
une perturbation simple par rapport au champ de liaison (ce n’est que dans le domaine des impulsions 
laser très brèves et très intenses qu’on peut sortir de ce régime et atteindre même des situations où le 
champ de liaison devient une petite perturbation par rapport au champ laser incident). 


2.2 Variables normales 


Nous allons dans ce paragraphe souligner l’analogie très forte entre la dynamique des champs électro- 
magnétiques et celle d’une collection d’oscillateurs harmoniques. On avait déjà pu prendre conscience 
de cette analogie en écrivant la densité de lagrangien du champ électromagnétique, en Æ? — B?, et en 
remarquant l'analogie formelle avec le lagrangien d’un oscillateur unidimensionnel, en v? — x?. Pour 
ne pas trop alourdir le débat, nous ne discuterons de cette analogie que dans l’espace libre de charges 
et de courants. 
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2.2.1 Electromagnétisme dans l’espace libre 


Si p et j sont nuls, les équations de Maxwell dans l’espace réciproque se simplifient beaucoup. On a 
E=i©k x B (2.22) 


et | 
B= —ik x E (2.23) 


Les champs électriques et magnétiques sont strictement transverses. On en déduit à nouveau que le 
potentiel scalaire V est nul. 

Nous introduirons, pour décrire le champ, deux nouvelles variables que nous nommerons variables 
normales du champ: 


a(k,t) = (E — ck x B) (2.24) 


i 
2N 
i 
- 
2N 
Ce changement de variables et bien sûr inversible et œ et 8 suffisent à déterminer complètement les 
champs. Dans les expressions précédentes, M est un facteur de normalisation, pouvant dépendre de 
k mais pas de t, que nous ne préciserons pas davantagel. Notons également que, par construction, 
ces variables sont uniquement transverses. La condition de réalité des champs E*(k,t) = E(—k, t) se 
reflète sur a et B. On vérifiera immédiatement, par simple substitution, que: 


B(k,t) = E+ckxB). (2.25) 


p” (k, t) = —a(—k, t) (2.26) 
a*(k,t) = —-B(-k,t). (2.27) 
Ces expressions prouvent que les variables B sont déterminées de façon univoque dès que l’on connaît 


les œ, qui sont donc les seuls paramètres dynamiques libres ou encore les seuls degrés de liberté du 
problème. Nous allons donc en écrire les équations dynamiques. 


2.2.2 Dynamique des variables normales 


On écrit & par simple dérivation et on remplace les dérivées temporelles des champs électriques et 
magnétiques par les équations de Maxwell correspondantes. On a donc: 


à = = TE - or x B) 
= Slee X B +r x (Kx £). (2.28) 


Le dernier terme dans le crochet de la seconde ligne est simplement égal à —E puisque le champ est, 
dans le vide, purement transverse. On a donc finalement: 


à = —icka = —iwa , (2.29) 


en posant, une fois de plus, w = ck. 

Pour comparer cette équation à celle de la dynamique d’un oscillateur, nous considérerons un 
mouvement unidimensionnel avec la coordonnée x et l'impulsion conjuguée p. Le hamiltonien s’écrit 
H = p? /2m + mwg? /2. En posant 

a=x+ip/muw , (2.30) 

1Sa valeur ne doit être précisée que quand on procède à la quantification du champ électromagnétique. On choisit 

alors le facteur M, en fonction du volume dans lequel on quantifie le champ, pour que l’énergie d’un photon unique soit 
précisément égale à hv. 


2.2. VARIABLES NORMALES 189 


(on notera la similarité avec les variables normales du champ), on trouve: 
à = —iwa , (2.31) 


précisément l’équation décrivant l’évolution de la variable normale du champ. 

Chaque vecteur d’onde est donc associé à une variable normale (à deux dimensions puisque trans- 
verse) qui à la même dynamique qu’un oscillateur harmonique. Notons que l’on peut se ramener à un 
problème à une dimension. Pour chaque k, on peut définir deux vecteurs de base orthogonaux à k, 
e et e'?. En écrivant que a = age + aee’, on montre que les deux variables normales scalaires ae 
et age ont la dynamique d’un oscillateur harmonique unidimensionnel. Si on appelle mode du champ 
une valeur de k et une polarisation, chaque mode du champ électromagnétique est un oscillateur 
harmonique. 

Nous avons franchi là une étape essentielle vers la quantification du champ. On apprend, dans les 
premiers cours de mécanique quantique, à quantifier l’oscillateur harmonique. Ses niveaux d’énergie 
sont non dégénérés, égaux à (n + thw, où n est un nombre entier positif ou nul qui décrit le 
nombre d’excitations élémentaires ou quanta ou phonons. L’énergie d’un mode quantifié du champ 
prend donc le même ensemble de valeurs. Le nombre n décrit alors le nombre de quanta d’énergie 
électromagnétique, le nombre de photons en un mot. Comme toujours en mécanique quantique, les 
variables classiques sont remplacées par des opérateurs. Les variables a£ sont remplacées par les 
opérateurs d’annihilation de photons qui transforment l’état |n) à n photons en l’état /nÎn — 1) à 
n — 1 photons (l’opérateur adjoint at étant évidemment l’opérateur de création de photons). 

Tant que la quantification se limite à un seul mode (à une seule valeur de k et de €), il n’y a 
aucune difficulté. La plupart des expériences modernes d'optique quantique peuvent se décrire assez 
précisément en termes de photons et des opérateurs a et at. En effet, dans la plupart de ces expériences, 
on ne s'intéresse qu’à quelques modes, définis par des faisceaux laser ou par des cavités résonnantes. 
La situation se complique un peu quand on veut considérer l’espace libre. Il faut alors sommer tous 
les modes. L'énergie du fondamental (aucun photon dans aucun mode) ou du vide de rayonnement 
devient alors infinie. Il s’agit en effet de sommer les énergies de point 0, 1/2ñw, d’une infinité de 
modes. Un zéro d'énergie infini ne serait pas trop grave mais il y a des problèmes plus sérieux. L'effet 
de ce continuum de modes vides sur un atome, par exemple, est divergent: les niveaux d’énergie 
sont infiniment modifiés par ce couplage. Il faut donc se débarrasser soigneusement de ces infinis, 
de ces divergences dues à des sommations sur tous les modes. Les techniques modernes de théorie 
des champs, de renormalisation, le permettent. En un mot (plus que qualitatif) on peut comprendre 
qu’une particule chargée isolée du champ n'existe pas. Un électron, par exemple, est “habillé” par les 
fluctuations de vide. Cet habillage produit une modification infinie des paramètres (masse, charge) de 
la particule “nue”. Mais ce que nous mesurons dans une expérience, la masse ou la charge physique, 
sont des quantités finies qui tiennent compte de cet habillage. En introduisant dans la théorie des 
paramètres qui ne sont pas ceux d’une charge isolée mais d’une charge en interaction avec le vide de 
rayonnement, on peut se débarrasser de ces infinis et obtenir même des prédictions quantitatives d’une 
précision remarquable. 


2.2.3 Décomposition en ondes planes 


Ayant explicitement la dynamique des variables normales, nous pouvons, toujours dans l’espace libre, 
écrire la dynamique du champ dans l’espace réel. On a: 


a = ag(k,0)e “te + aer(k,0)e “’e’. (2.32) 


2Nous prenons ici une base de polarisations linéaires, ce qui est le plus commode à écrire. On pourrait aussi décomposer 
les variables normales sur une base de polarisations circulaires en prenant une base constituée de superpositions linéaires 
à coefficient complexes de nos vecteurs. 
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En portant cette expression dans celle du champ transverse: 
E = iN [a(k, t) — a*(-k,t)] (2.33) 


(nous avons utilisé le lien entre 8 et œ) et en faisant la transformée de Fourier inverse, on trouve 
finalement: $ 

E = 2Re ——— J PKN (k) Y acer’ (2.34) 

(27)3/2 z 

où la somme sous l'intégrale porte sur deux polarisations transverses arbitraires pour chaque valeur 
de k. Cette expression est sans surprise. On retrouve, par des voies un peu détournées, le fait que 
le champ dans l’espace libre peut se décomposer comme une somme d’ondes planes, transverses, de 
polarisations linéaires. 


Appendice 3 


Faisceaux gaussiens 


Nous chercherons à donner, dans cet appendice, un modèle raisonnable de faisceau laser. Très claire- 
ment, l’onde plane ne convient pas pour décrire ces faisceaux. Ils sont bien localisés transversalement. 
Leur divergence, assez faible, est de l’ordre de la limite imposée par les lois de la diffraction et leur 
extension transverse. Quand on s’éloigne de l’axe, l’intensité est d’abord stationnaire, puis décroît 
lentement. Enfin, quand on focalise un tel faisceau au moyen d’une lentille, il existe une taille mini- 
male à la tache focale. Nous allons essayer, à partir de la théorie de la diffraction, de construire un 
modèle raisonnable pour un tel faisceau dans le premier paragraphe. Nous adopterons une démarche 
pragmatique mais on pourrait la rendre plus rigoureuse et plus convaincante en montrant qu’on con- 
struit ainsi, au moins dans le cadre d’une approximation paraxiale, une solution explicite des équations 
de Maxwell dans l’espace libre. 

Le deuxième paragraphe sera consacré à une revue des propriétés essentielles des modes gaussiens. 
Nous nous pencherons aussi brièvement sur les modes d’ordre supérieur. Nous discuterons ensuite, 
dans le paragraphe suivant, des liens entre faisceaux gaussiens et cavités laser. Nous montrerons 
en particulier qu’une superposition stationnaire de deux faisceaux gaussiens respecte naturellement 
les conditions aux limites imposées par deux miroirs sphériques dans une configuration Fabry Perot. 
Nous aurons alors compris pourquoi les lasers produisent effectivement le plus souvent des modes 
gaussiens. Enfin, nous conclurons ce chapitre par un bref survol de l’optique des modes gaussiens, en 
nous penchant en particulier sur les transformations de modes au passage par une lentille. 


3.1 Construction d’un mode gaussien 


Les modes laser sont relativement invariants par translation. Ils divergent légèrement mais la forme 
de la répartition d'amplitude dans un plan perpendiculaire à l’axe change peu. Or les modifications de 
cette forme peuvent être décrits par la théorie de la diffraction. L’amplitude en un plan lointain peut 
se calculer, en première approximation, comme la transformée de Fourier de l’amplitude en un plan 
proche de l’origine. La seule fonction dont la forme reste invariante par transformation de Fourier est 
la gaussienne. Il est donc naturel d’essayer de construire un faisceau dont la répartition d'amplitude 
dans un plan transverse soit gaussienne. 

Nous considérerons donc un faisceau d’axe optique Oz. Un plan transverse passant par l’origine 
sera repéré par les axes Ox1 et Oyı. Nous noterons @ l’amplitude du champ ou plutôt d’une des 
composantes du potentiel. Nous supposerons donc que, dans le plan passant par O, la répartition 
d'amplitude est de la forme: 

lzi, y1) = poe CITE) w (3.1) 


Dans tous les calculs, nous omettrons toujours les facteurs exp —iwt. Il est évident, surtout pour 
des faisceaux laser, que nous ne considérerons que des champs monochromatiques. La dépendance 
temporelle est alors simplement en facteur de toutes nos expressions et peut être simplement omise. Do 
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est une amplitude que nous pouvons supposer réelle sans restreindre la généralité. Nous appellerons, 
pour des raisons qui seront évidentes dans le prochain paragraphe, wo le “waist” du faisceau. Nous 
supposerons le waist notablement plus grand que À, longueur d’onde du faisceau. Si ce n’était pas le 
cas, aucun calcul analytique ne serait possible à partir de la théorie de la diffraction. 

Nous chercherons, à partir de là, à calculer la répartition d'amplitude dans un plan Mxy, perpen- 
diculaire à Oz, M étant situé à la cote z. Nous ne nous cantonnerons pas pour ce calcul au régime de 
Fraunhofer. Nous laisserons, à titre d'exercice, le lecteur le traiter. Il est évident que l’on trouvera une 
répartition gaussienne de l’intensité, avec une largeur variant linéairement avec la distance z. Cette 
approximation ne permet pas de définir correctement le faisceau pour des distances z de l’ordre de 
wo. Nous allons voir que le principe de Huygens, dans ce cas très simple, permet de s’affranchir de 
l’approximation de Fraunhofer et d’effectuer un calcul plus précis, valable dans cette région. Bien sûr, 
nous retrouverons les résultats de Fraunhofer pour des distances suffisamment grandes. 

Nous avons en effet: 

b(æ, y) == / dzıdyı n, EAU (3.2) 

rı 

avec les notations standard du ua 2. Les vecteurs rı et r sont ici de coordonnées respectives 
(x1,y1,0) et (x,y,z). Nous allons maintenant approcher l’intégrande en supposant que l'observation 
n’est pas à trop courte distance. Comme pour la diffraction de Fraunhofer, nous allons traiter très 
cavalièrement les termes d'amplitude en confondant |r — r1| avec |z| (approximation qui tiendra si 
la distance d'observation n’est pas trop petite par rapport au waist). Le faisceau est évidemment 
symétrique par rapport au plan z = 0. Nous supposerons donc dans la suite z > 0 et reconstruirons 
ensuite l’autre partie du faisceau par symétrie. Nous traiterons aussi cavalièrement le facteur x que 
nous supposerons égal à 1, ce qui est sans doute assez bien vérifié dans le cadre d’une approximation 
paraxiale. En revanche, nous développerons la phase à un ordre plus élevé que pour le calcul de 


Fraunhofer: ; s 
, . (x — z1) (y — yı) 
kr — rı| ~ ik = + Z]. 3.3 
iklr -rl œi |- + 5- + D (3.3) 
En tenant compte de la répartition supposée dans le plan Ox;y1, on a: 
Qo €? ri + y ln) (u-u? 
gen ALLT p h EE D PL EE SA QE 3.4 
glz y) = À A opi [AA + (3.4) 


Cette intégrale est explicitement calculable, puisqv’elle ne fait intervenir que des facteurs gaussiens. 
Pour faire le calcul, nous allons réarranger les termes en x pour faire apparaître un carré. On se 
convaincra sans problèmes que: 


2 2 . : 2 
x „(z-z ik 2iz 2xx £ 
Boe an = Lite) UE re re 7 
wG 22 22 kw 1+2iz/kwĝ 1+ 2iz/kwő 
ik 2iz x 2 ik x? ik 
= —(1+ a Ne 
2z ( i) a: ATER 2z 1+ 2iz/kuw8 F 22° (3-5) 


Les termes en z? sont des constantes pour l'intégration qui nous occupe et peuvent donc être mis de 
côté. En les regroupant et en se livrant à des opérations identiques sur les z, on peut écrire: 


_ de”? ee z) / 


exp Hans + 2iz/kuwi) fs nr À 


; 2 
exp ET + 2iz/kwÿ) (u — re) | ; (3.6) 
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En posant u = zı — x/(1+ 2iz/kwé), l'intégrale sur zı se ramène à: 


i du exp (£ — =) rl ; (3.7) 


le contour d'intégration dans le plan complexe étant la droite D des points de valeur imaginaire égale 
à Im (x/(1 + 2iz/kw)). Considérons le contour fermé C constitué de D, de l’axe réel parcouru dans 
le sens négatif et de deux portions de cercle de l'infini. La fonction à intégrer n’admettant aucun pôle 
dans le plan complexe, l'intégrale sur de contour est nulle. La contribution des portions à l’infini étant 
nulle elle aussi, l'intégrale sur D est égale à l'intégrale de la même fonction sur l’axe réel. Or 


OO 
Î duexp(—au?) = ,/r/a (3.8) 
—OO 

même si œ est complexe, à condition que les intégrales soient convergentes. Le produit des intégrales 
sur zı et yı est donc simplement égal à m/[1/w8 — ik/2z] et on a: 


e T x? +y? 
A idz 1/w8 — ik/2z Pap res i Gi) 


ce qui achève notre calcul du point de vue formel. Avant d’aller plus loin, notons que, comme nous 
l’espérions, la répartition d'amplitude est essentiellement gaussienne. 
Pour alléger les notations, nous poserons: 
kw? nmwê 
E E 3.10 

2 À 0) 
Ce paramètre joue visiblement un rôle central dans nos équations. Nous l’appellerons, pour des raisons 
qui apparaîtront clairement dans l’avant dernier paragraphe de cet appendice, paramètre confocal. On 
peut alors définir deux longueurs utiles: 


z2 
w(z) = wo 1+ (3.11) 
et 
b2 
R(z)=— +z. (3.12) 
z 
On définira aussi une phase par 
Ÿ = arctan B ; (3.13) 
Avec ces définitions et un peu d’algèbre, on mettra le champ sous la forme 
p = e7 1e e ie (2? +y?)/w? (2) eik(2?+y?)/2R(2) (3.14) 


Avant de discuter plus en détails les propriétés de ce faisceau, dont la structure gaussienne est 
évidente, il faudrait préciser ce qu’est la validité de nos approximations. A priori, notre calcul n’est 
correct que pour des distance z grandes par rapport au waist. En fait, expression que nous obtenons 
est meilleure. Elle décrit correctement le faisceau pour toutes les distances. On pourra, pour s’en 
convaincre, porter directement cette expression dans l’équation de propagation des potentiels. On 
verra qu’elle est une solution de cette équation à condition de faire une approximation paraxiale (on 
suppose les coordonnées transverses lentement variables par rapport à la longueur d’onde ou les angles 
de diffraction faibles ce qui revient bien sûr au même). Nous avons donc, un peu par chance, exhibé 
une solution approximative des équations de Maxwell qui présente toutes les caractéristiques que nous 
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souhaitions. Nous aurions pu, de manière plus systématique, partir des équations de propagation et de 
l’approximation paraxiale et en construire une solution. Nous aurions alors trouvé tout un ensemble 
de solutions, dont celle que nous venons d’exhiber. Les autres, appelées faisceaux gaussiens d’ordre 
supérieur, seront brièvement évoquées dans le paragraphe suivant. 

Nous n’avons ici calculé, a priori, qu’une des composantes du potentiel. Il faudrait les écrire toutes 
et dériver correctement le potentiel pour trouver la structure des champs électriques et magnétiques. 
Si la divergence du faisceau n’est pas trop grande, on peut toutefois simplifier beaucoup le calcul. 
Toutes les quantités relatives au faisceau varient en effet sur une échelle de longueur beaucoup plus 
grande que À. On pourra donc sans doute assimiler localement le faisceau gaussien à une onde plane. 
Les champs électriques et magnétiques seront perpendiculaires à la direction de propagation locale qui 
est perpendiculaire aux surfaces d’onde ou surfaces d’égale phase du faisceau. Comme les ouvertures 
sont faibles, les champs ont pratiquement une orientation constante sur le profil du faisceau. En dépit 
de la géométrie plus complexe, on peut donc continuer à parler d’une polarisation unique pour notre 
faisceau. 

Notons enfin qu’on peut construire des solutions exactes des équations de Maxwell qui se réduisent 
dans le cadre paraxial aux modes gaussiens ordinaires mais qui les généralisent pour des divergences 
arbitraires. On les nomme “complex source points” ou CSP. Elles sont obtenues en effet en calculant 
formellement le rayonnement émis par un dipôle ponctuel situé en iz le long de l’axe Oz. On obtient 
alors une solution complètement vectorielle des équations de Maxwell. La forme détaillée est trop 
complexe pour trouver sa place ici. 


3.2 Propriétés essentielles 


L'interprétation physique de la formule (3.14) est relativement transparente. Le facteur exp(—(x? + 
y?)/w°?(2)) décrit une répartition gaussienne de l'intensité avec une largeur w(z). La fonction w, 
normalisée à wo, est représentée sur la figure 3.1(a). Bien que nous n’ayons fait formellement le 
calcul que pour z > 0, il est clair qu’il peut être étendu dans la région z < 0 et que le faisceau est 
symétrique par rapport à l’origine. Bien sûr, la largeur vaut exactement wọ en z = 0. Ensuite, le 
faisceau s’élargit, une conséquence naturelle de la diffraction. À grande distance, la taille du faisceau 
est pratiquement une fonction linéaire de z, correspondant à une ouverture angulaire constante. Cette 
ouverture angulaire est égale à 21/Two, très voisine de ce qu’on obtient par des arguments qualitatifs de 
diffraction à la Fraunhofer. On notera en particulier que l’extension latérale du faisceau est multipliée 
par V2 pour z = b. Si on imagine le faisceau à trois dimensions, on comprendra bien pourquoi le 
paramètre wo est appelé waist (“taille” en anglais). 

Le facteur exp(ik(x? +y?)/2R(z)) dans (3.14) affecte la phase du champ. Il coïncide avec la phase 
d’une onde sphérique de rayon R(z). La surface équiphase, ou surface d’onde, passant par z est donc 
une sphère de rayon R (à des petites corrections près dues au terme en Ÿ). Le rayon R est représenté, 
normalisé à b, en fonction de z/b sur la figure 3.1(b). A très grande distance, R ~ z. Le centre de 
courbure des surfaces d’onde est donc l’origine. On retrouve là aussi une conséquence directe de la 
formule de Huygens dans le régime du champ lointain. En revanche, à l’origine, R est infini: la surface 
d’onde est un plan, ce que nous avions effectivement supposé initialement. Le rayon de courbure 
minimal en module est atteint pour z = +b et vaut 2b. Cela justifie le nom de paramètre confocal 
choisi pour le paramètre b. Les surfaces d’onde en z = +b forment en effet deux sphères de même rayon 
de courbure, le centre de l’une étant situé au sommet de l’autre. C’est précisément la configuration du 
Fabry Perot confocal, largement utilisé en optique laser. Nous verrons dans le prochain paragraphe 
de cet appendice comment relier la géométrie des modes gaussiens à la cavité laser qui les définit. 

Le terme exp —iŸ est une phase supplémentaire. Le paramètre Y est représenté en fonction de z/b 
sur la figure 3.1(c). Sur une étendue de l’ordre de b, Ÿ passe de —7/2 à m/2. Ce saut de phase par 
passage au foyer est en fait bien connu en interférométrie classique. Des expériences telles que celles 
des demi-lentilles montrent clairement que, pour un faisceau quelconque, la phase subit une rotation 
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w(z)/u | (a) 


war |... (©) 


-z/b 


Figure 3.1: (a) Largeur w(z) d’un faisceau gaussien, normalisé à wo en fonction de z/b. (b) Rayon de courbure R(z) 


de la surface d’onde, normalisé à b, en fonction de z/b. (c) Phase Ÿ normalisée à x en fonction de z/b. 
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Figure 3.2: Cavité laser Fabry Perot. Elle est constituée de deux miroirs sphériques de rayons de courbure R; et R2 


situés en 21 < 0 et z2 > 0. Elle est de longueur L. Elle soutient un mode gaussien dont le waist est situé à l’origine. 


de x au passage d’un point focal. On trouvera dans le Born et Wolf des cartes détaillées (et fort 
complexes) du champ électrique au voisinage d’un foyer pour un faisceau à profil rectangulaire. Ici, la 
géométrie du faisceau est beaucoup plus simple. 

Le dernier terme qui mérite commentaire est le préfacteur wo/w(z). Il exprime tout simplement 
la conservation de l’énergie. En prenant le module au carré du “champ”, on obtient un terme propor- 
tionnel au flux d'énergie. L'intégrale du terme gaussien d'amplitude est alors proportionnel à w. Le 
préfacteur rétablit la constance de l’énergie transportée le long du faisceau. 

Nous n’avons considéré en fait ici que le plus simple des faisceaux gaussiens. Nous aurions pu 
choisir, dans le plan de référence, une forme plus complexe où la gaussienne serait multipliée par un 
polynôme de Hermite en fonction de x: et de yı. On retrouve alors un faisceau qui se propage en 
conservant la même forme de répartition d'amplitude. L’aspect du mode au voisinage de son waist est 
constitué de taches séparées par des zéros d’intensité correspondant aux zéros des polynômes de Her- 
mite dans les deux directions. Le mode gaussien d’ordre zéro est alors celui qui correspond au polynôme 
le plus simple, une constante. Les autres faisceaux sont appelés “modes gaussiens d’ordre supérieur”. 
On note souvent TEM,, ces faisceaux. TEM désigne un mode transverse électromagnétique. Les 
champs électriques et magnétiques sont en effet perpendiculaires à la direction de propagation, avec 
l’approximation paraxiale. n et p désignent les nombres de zéros des polynômes dans les directions 
zı et yı. Le mode gaussien fondamental est appelé T'EMoo. C’est en général celui qu’on cherche 
à réaliser, car il permet, à divergence donnée, d'obtenir la plus petite tache focale. Notons que les 
différents modes gaussiens forment une base orthogonale de l’ensemble des faisceaux paraxiaux admet- 
tant l’axe z comme direction de propagation (le produit scalaire étant l’intégrale de recouvrement d’un 
des faisceaux avec le complexe conjugué de l’autre). Tout faisceau peut donc a priori se décomposer 
sur cette base. 


3.3 Cavités laser 


Un laser est généralement constitué d’une cavité Fabry Perot, plus ou moins remplie par un milieu 
amplificateur de lumière (voir figure 3.2). Quand le gain sur un aller et retour dans la cavité excède 
les pertes (à travers les miroirs ou à travers le milieu), l’intensité se renforce dans un aller et retour. 
On atteint alors le seuil d’oscillation: à partir d’une petite fluctuation de champ, due par exemple 
à l’émission spontanée par le milieu atomique, l’amplitude croît. Cette divergence est limitée par 
le phénomène de saturation, qui fait très généralement décroître le gain du milieu amplificateur en 
fonction de l’intensité présente dans la cavité. On atteint alors un équilibre entre gain et pertes et un 
régime stationnaire où l'intensité reste constante. 

Pour savoir quelle est la géométrie du faisceau produit par un tel laser, on peut chercher à construire 
un faisceau qui respecte les conditions aux limites imposées par les miroirs. Il faut donc créer une 
onde stationnaire à partir de deux faisceaux ne différant que par leur direction de propagation dont 
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les surfaces d’onde soient des sphères, coïncidant avec la surface des miroirs. Les modes gaussiens 
fondamentaux conviennent a priori. En écrivant la condition d’existence d’une onde stationnaire et 
l'accord entre le rayon de courbure des surfaces d’onde et celui des miroirs, nous pourrons déterminer 
complètement la géométrie de ce faisceau à partir de celle de la cavité. C’est à ce calcul que nous 
allons nous employer. 

La géométrie de la cavité est représentée sur la figure 3.2. Nous noterons z1 la position du miroir 
1 par rapport au waist de nos faisceaux gaussiens contrapropageants, z2 celle du miroir 2. En prenant 
par convention l’origine de l’axe au waist des faisceaux, nous simplifierons beaucoup les écritures. 
Toutefois, il ne faut pas perdre de vue que z1 est alors une inconnue (z2 étant déterminée à partir de 
zı par la longueur de la cavité). Les rayons de courbure des miroirs seront notés respectivement R1 et 
Rə. Dans la configuration représentée sur 3.2, nous conviendrons que les deux rayons de courbure sont 
positifs. Les résultats que nous allons obtenir sont plus généraux que cette géométrie et admettraient 
que l’un ou l’autre des rayons de courbure soit négatif. 

La première condition à écrire est que l’on puisse former une onde stationnaire entre les deux 
miroirs. Les deux faisceaux ayant des géométries identiques, il suffit d’écrire les conditions pour le 
faisceau aller. Si les surfaces d’onde sont confondues avec les miroirs, ce que nous imposerons dans un 
moment, il suffit d'écrire cette condition de phase aux sommets. La variation de phase sur le faisceau 
aller, entre z1 et z2 doit donc valoir pr où p est un entier arbitraire. On doit donc avoir: 


k(22 — 21) + V(z2) — Ya) = kL + V(22) — Yz) = pr. (3.15) 


L’équation est assez complexe, en raison des termes en Y. Elle admet toutefois une seule solution: la 
longueur de la cavité est fixée de manière univoque quand on fixe p. On retrouve ici tout simplement 
la condition de résonance de la cavité Fabry Perot. On peut fixer un peu les choses si la distance entre 
les miroirs et entre miroirs et waist est grande devant le paramètre confocal du faisceau (ce qui n’est 
guère le cas, comme nous le verrons, pour les cavités standard). On a en effet Y(22) — Y(z1) = x et 
la condition de résonance s'écrit simplement: 
1, À 
2 


L=(p+:) 


Toe (3.16) 


la condition obtenue naïvement en négligeant les termes en Y étant L = p\/2. 
L’accord en rayon de courbure entre les surfaces d’onde et les miroirs s’écrit donc simplement: 
R(z1) = —R: (3.17) 
R(22) = Ro ; (3.18 


le signe étant imposé par nos conventions de prendre positifs les rayons de courbure des miroirs. Si 
on y ajoute le fait que la longueur de la cavité est L, nous avons à résoudre le système: 


b2 

kiTa —Rı (3.19) 
21 
b2 

RI eae E Rə (3.20) 
22 

22 — 21 = L (3.21) 


Les inconnues sont le waist wọ du faisceau et sa position par rapport aux miroirs. Comme nous avons 
choisi le waist comme origine, nous pourrons prendre comme inconnues 21 et 22 (la troisième équation 
donnant trivialement l’un en fonction de l’autre). En soustrayant les deux premières équations, en 
faisant systématiquement intervenir la distance 22 — z1 c’est à dire L, on écrira sans peine: 


b = 2120 í adi =) (3.22) 
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Introduisons alors deux nouveaux paramètres donnés par: 


gı Rı ( ) 


On a R1/L = 1/(1 — g1) et: 

2122(g192 — 1) 
(1—g1)(1 — 92) 
En multipliant la première équation de notre système par z1, la deuxième par 22 et en en faisant enfin 
la différence, nous avons aussi: 


b = (3.25) 


z2 = z7 = L(2 + zı) = R222 + Riz, (3.26) 


et 
(L = R2)22 + (L = Rı)zı = 0; (3.27) 
En divisant par Rı Rə, on en tire sans difficultés: 


g2 gı 
— — z = 0. 3.28 
Ri z2 + Ro 21 (3.28) 


En exprimant enfin z1 en fonction de L et 22, on obtient 


gı fı 
Ri o E (3.29) 
ou encore 
EE SLN (3.30) 
gı + 92 — 29192 
On en déduit: 
aser AN (3.31) 
gı + 92 — 29192 
et, par simple substitution: 
bp? = p2 22-992) (3.32) 


(g1 + 92 — 29192)? ’ 
ce qui achève la résolution du système. 

Nous avons donc ainsi exprimé la position et la valeur du waist du faisceau en fonction des 
paramètre géométriques de la cavité. Nous n’aurons toutefois une solution acceptable que si b? > 0, 
c’est à dire si: 

0 < g1g2 <1. (3.33) 


Le point représentatif de la cavité dans un plan g1,g2 doit donc être dans le premier ou le troisième 
quadrant, entre les axes et les deux branches de l’hyperbole g1g2 = 1. Cette condition est une condition 
de stabilité pour la cavité laser. On peut en effet, d’un point de vue purement optique, remplacer les 
trajets aller et retour entre les miroirs de la cavité par une propagation dans une série de lentilles, 
convergentes ou divergentes selon la courbure des miroirs, espacées de L. Traiter ce petit problème 
en optique géométrique ne pose aucun problème si on écrit la matrice de transfert correspondant à 
un passage par deux lentilles consécutives ou un aller et retour dans la cavité. La propagation sur 
un grand nombre de passages ou d’allers et retour sera décrite par cette matrice élevée à une grande 
puissance. En général, la position ou l’angle du faisceau avec l’axe, qui sont les paramètres naturels 
de l’optique matricielle, divergent dans cette opération. C’est seulement, comme on pourra le vérifier, 
si la condition (3.33) est remplie que le rayon reste à distance finie de l’axe. Cette condition est donc 
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une pure condition d'optique géométrique qui exprime que les deux miroirs confinent effectivement la 
lumière au voisinage de l’axe. 

On prend donc bien garde, sauf dans quelques cas particuliers (milieux de très grand gain) de 
réaliser des cavités laser stables. Dans le plan g1, g2, nous pouvons examiner quelques points partic- 
uliers, à la frontière du domaine de stabilité 


e gı = g2 = 0. On a alors Rı = Rə = L. La cavité est une cavité Fabry Perot confocale, le centre 
de courbure d’un miroir étant confondu avec le sommet de l’autre. C’est, de loin, la configuration 
de cavité la plus utilisée en technologie laser. Elle présente, entre autres, l’avantage que les modes 
gaussiens d’ordre supérieur se trouvent dégénérés en fréquence avec le mode fondamental. On 
peut voir facilement que b = L/2, ce dont nous pouvions nous douter, et que wo = /LA/27. 
Comme cette cavité est à la limite du domaine de stabilité, on rapproche en général légèrement 
les deux miroirs. 


e g1 = g2 = 1l Les deux miroirs sont plans. C’est aussi une cavité à la limite de la stabilité, 
puisqu'on trouve évidemment un waist infini. 


e gı = g2 = —1 On trouve alors R1 = R2 = L/2. La cavité est une cavité concentrique. En fait les 
deux miroirs forment deux calottes d’une même sphère. On trouve dans ce cas, par un passage 
à la limite sans difficultés, que le waist devrait être nul. Bien sûr, cette solution n’a aucun sens 
physique, les conditions de l’approximation paraxiale étant violées depuis longtemps. 


3.4 Optique gaussienne 


On utilise bien sûr les faisceaux gaussiens dans des système optiques composés entre autres de lentilles 
minces. Il est donc important de savoir comment se transforme le faisceau au passage dans ce com- 
posant essentiel de l’optique. Nous allons voir que, si les résultats sont le plus souvent très voisins de 
ceux de l’optique géométrique standard, ils en sont parfois aussi éloignés de manière non intuitive. 

Pour décrire une lentille mince, nous allons examiner son influence sur la phase d’une onde in- 
cidente. L’axe de la lentille sera bien sûr confondu avec Oz. Comme la lentille est très mince, la 
déviation des rayons lumineux est négligeable et la répartition transverse d'amplitude n’est pas mod- 
ifiée. Nous avons déjà rencontré ces arguments, dans le chapitre 2, quand nous avons introduit la 
notion d’objet de phase pour la fonction de transmission d’un diaphragme. Considérons, pour fixer les 
idées, une lentille plan-convexe d’indice n. La face d’entrée est plane, la face de sortie est une sphère 
de rayon R. L'épaisseur de verre traversée par le faisceau à la distance x? + y? de l’axe est: 


x? +y? 


ES 


(3.34) 


où Lo est l'épaisseur maximale (nous avons bien sûr, de manière consistante avec l’approximation 
paraxiale, remplacé la sphère par une parabole). Nous pouvons omettre ici les termes en lọ, qui 
décriraient le déphasage d’une lame mince d’épaisseur égale à celle de la lentille. Ils provoquent 
seulement un déphasage global de l’onde incidente. L’amplitude de londe en sortie est donc multipliée 
par le facteur de phase: 


2 2 21,2 

f TEF P a 

exp (~w — 1) À | = exp (x d | ; (3.35) 
2R 

Nous avons fait intervenir f = R/(n — 1). Pour interpréter ce résultat, on pourra s'apercevoir qu’une 

onde incidente plane émerge avec la phase d’une onde sphérique convergente de rayon de courbure f. 

f est donc la distance focale de la lentille, un résultat élémentaire d'optique géométrique. Le résultat 
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que nous venons d’obtenir avec une lentille convergente peut se généraliser à toutes les lentilles minces. 
Il suffit, avec nos notations, de compter f négativement quand la lentille est divergente. 

Considérons maintenant un faisceau gaussien incident. Il est décrit, dans le plan de la lentille, par 
w(z) et R(z) ainsi que par la phase V(z). La répartition transverse d'intensité n’étant pas modifiée, 
l’amplitude reste une fonction gaussienne de la distance à l’axe, de même largeur. En revanche, la 
phase due à la lentille s’ajoute à celle du faisceau. L’onde résultante est encore une onde sphérique, 
avec une courbure R’ telle que: 


Re (3.36) 


Il est donc évident que le faisceau émergent est lui aussi gaussien, décrit par des paramètres w’(z') et 
R/(z'), z’ étant la distance du waist (encore inconnu) de ce faisceau à la lentille. Notons à ce point 
que la phase Ÿ d’un faisceau gaussien peut se calculer facilement à partir de w et R. Toute l’influence 
de la phase de la lentille ayant été inclus dans le terme en R’, la phase Y’ est évidemment égale à Y. 
En général, Y’ ne coïncide pas avec la phase du nouveau faisceau calculée à partir de w’ et R’. Il peut 
donc exister en plus du changement de géométrie un déphasage global. Les nouveaux paramètres du 
faisceau peuvent se calculer en résolvant l’équation de conjugaison (3.36) et w’ = w. On en déduit la 
cote z/ et le nouveau paramètre confocal b' qui fixent la position et l’étendue du nouveau waist. 

Ce calcul est un peu complexe, faisant intervenir des équations du quatrième ordre. Nous n’exa- 
minerons que quelques cas simples. Le faisceau incident a son waist à l’origine que nous supposerons 
éloignée de la lentille. Le rayon de courbure R de ce faisceau est donc essentiellement égal à la cote z 
de la lentille. Considérons d’abord le cas où R’ s’annule. Il est évident que le waist émergent est situé 
sur le plan de la lentille. Cela se produit, d’après l’équation de conjugaison, si R = f, c’est à dire si 
le waist du faisceau incident est situé au foyer de la lentille. En optique géométrique, l’image de ce 
plan est à l'infini. Nous voyons bien ici que l’optique gaussienne n’est pas toujours intuitive et qu’en 
particulier le waist du faisceau image n’est pas toujours confondu avec l’image géométrique du plan 
du waist d'entrée. En revanche, en supposant que le waist du faisceau émergent est, lui aussi, situé 
loin de la lentille, le rayon de courbure R’ donne directement sa position qui coïncide avec l’image 
géométrique, comme le montre la relation de conjugaison. On peut montrer aussi que, dans ce cas, 
les deux waists sont dans un rapport égal au grandissement géométrique de la lentille. 


Appendice 4 


Approximation eikonale 


Nous avons vu, à la fin du chapitre trois, comment on pouvait passer qualitativement de l’électro- 
magnétisme à la notion de rayon lumineux en utilisant les concepts de la diffraction. Nous avons vu 
aussi quels liens existaient alors entre le principe de Fermat et cette approche. Nous allons, dans cet 
appendice, rendre beaucoup plus rigoureuse cette approche. Nous partirons des équations de Maxwell 
et nous ferons un changement de variables, tout à fait rigoureux, pour distinguer deux échelles de 
longueur dans la variation des champs. Nous aurons d’une part la longueur d’onde dont l’échelle décrit 
les variations de phase du champ dans la direction de la propagation. Nous aurons aussi la variation 
spatiale “transverse” des champs due au fait que nous ne propageons pas en général des ondes planes. 
Nous ferons alors, dans le deuxième paragraphe, l’approximation de l’optique géométrique qui revient 
à négliger l’échelle spatiale de la première variation devant la seconde. En supposant ainsi que les 
“enveloppes” des champs varient lentement devant la longueur d’onde, nous retrouverons la notion 
de rayon lumineux, clairement définie en examinant le transport d’énergie. Enfin, dans le troisième 
paragraphe, nous écrirons l’équation décrivant la trajectoire des rayons lumineux. Nous montrerons 
aussi que cette équation est celle que l’on obtient directement à partir du principe de Fermat. Nous 
nous livrerons pour cela à un calcul variationnel très inspiré de ceux de la première partie de ce cours. 

Notons que la technique que nous allons employer ici pour passer à l’optique géométrique s’utilise 
aussi dans des domaines variés. En mécanique quantique, par exemple, de nombreuses méthodes 
d’approximations semi-classiques sont fondées sur ce genre d’approche. Si les calculs ne sont pas 
directement transposables (ils sont relativement plus complexes ici en raison de la nature vectorielle 
du champ), leur esprit reste similaire. 

Dans tout cet appendice, nous ne considérerons que la propagation dans un milieu diélectrique, 
sans propriétés magnétiques (les milieux magnétiques étant en général opaques, l’optique y est sans 
grand intérêt). Nous ne considérerons aussi que des champs monochromatiques, oscillant à la fréquence 
w. Nous noterons €r la permittivité diélectrique du milieu et n = ,/€,; son indice de réfraction à cette 
même fréquence. Nous supposerons, pour faciliter les calculs, ces quantités réelles et scalaires. Nous 
ne traiterons donc que de milieux sans absorption ni biréfringence (des généralisations relativement 
immédiates permettent de tenir compte de ces effets). En revanche, nous ne ferons aucune hypothèse 
sur l’homogénéité du milieu et permettrons à ces quantités de varier avec la position. Les différentes 
quantités décrites ici sont définies et commentées dans la cinquième partie de ce cours sur la propaga- 
tion dans les milieux matériels. Enfin, nous ne traiterons que la propagation libre indépendamment 
des sources. C’est bien en général le problème posé par une expérience d’optique. 


4.1 Eikonale 


Nous partons donc des équations de Maxwell pour des champs monochromatiques. Elles s’écrivent, 
en notant Eo(r) et Bo(r) les amplitudes complexes des champs électrique et magnétique en un point 
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(nous nous débarrassons ainsi de toute la dépendance temporelle qui est en facteur dans tout ce qui 
va suivre): 


VxEo = ickoBo (4.1) 
V:6&Eo = 0 (4.2) 
V-Bo = 0 (4.3) 
VxBo = iE , (4.4) 


en posant ko = w/c. 

Si nous imaginons ce que doit être un rayon lumineux, la phase des champs dans la direction 
de propagation doit varier rapidement (sur une échelle 1/ko) alors que, perpendiculairement à cette 
direction, l’amplitude varie lentement. Nous allons donc changer de variables pour faire apparaître 
d’une part une variation rapide de la phase avec une échelle ko et d’autre part une variation plus lente de 
l'amplitude. En un mot, nous faisons apparaître les enveloppes lentement variables des champs d’une 
part et la modulation rapide due à leur caractère oscillant d’autre part. Ce genre d’approximations 
d’enveloppes lentement variables est assez couramment utilisée. Nous poserons donc: 


Eo = e(r)e050) (4.5) 
Bo = b(r)e$() (4.6) 
(4.7) 


où S, appelée eikonale, est une fonction réelle de r. Ce changement de variable n’est bien sûr pas 
univoque. Il n’a pas vocation à l’être, puisque nous n’étudions que la propagation dans l’espace 
libre, indépendamment des sources. Le champ ne serait complètement défini que si nous pouvions 
spécifier aussi les sources. Pour le débat qui nous occupe maintenant, la définition de la notion de 
rayon lumineux dans la propagation libre, cette question est sans intérêt. Nous pouvons néanmoins 
constater que les champs des sources à grande distance, qui seront détaillés dans la partie suivante, 
peuvent tous se mettre sous la forme précédente avec un choix très naturel pour l’eikonale. 

Porter ce changement de variables dans les équations de Maxwell ne pose aucun problème tech- 
nique. Pour la première on a: 


V xes = Yes xe+eS xe 
= iko(VS)eS x e+ esy xe. (4.8) 
La première équation de Maxwell s’écrit donc: 
Vxe 


VS x e + — = ch: (4.9) 
1K0 
Pour la deuxième: 
V - eree™S = Ve, -ees + ee- ikp(VS )e OS + ee SV . e (4.10) 
et donc i 
e vocca Y ne) eye] (4.11) 
1Ko 


Par des calculs similaires, on montre que les deux dernières équations de Maxwell se mettent sous la 
forme: 


VS-b = -—V.b (4.12) 
iko 
5 1 
VSxb+Ēe = -—Vxb. (4.13) 
c iko 


Insistons sur le fait que tous ces calculs sont exacts. Bien entendu, les quatre équations de Maxwell 
ne permettent pas de déterminer les 7 fonctions inconnues de nos nouvelles variables. On retrouve le 
fait que ce changement de fonctions est ambigu. 
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4.2 Approximation de l’optique géométrique 


Nous allons maintenant faire réellement l’approximation de l’optique géométrique. Nous allons sup- 
poser que les enveloppes lentement variables et l’eikonale varient toutes sur une échelle de longueur 
très supérieures à la longueur d’onde. Dans les équations de Maxwell, coexistent des dérivées de 
ces quantités par rapport à la position et des termes faisant intervenir 1/kọ. Avec notre approxi- 
mation, ces derniers termes sont négligeables par rapport aux premiers (nous laissons la justification 
mathématique au lecteur!). L’approximation de l’optique géométrique consiste à négliger ces termes 
et à écrire les équations de Maxwell pour les enveloppes lentement variables sous la forme: 


VS x b+Te = 0 (4.14) 
VSxe-cb = 0 (4.15) 
e: VS = 0 (4.16) 
DV De (4.17) 


Notons tout de suite que les champs électrique et magnétique sont perpendiculaires au gradient 
de l’eikonale. La phase de londe étant essentiellement déterminée par le terme en kos, les surfaces 
d’onde, ou surfaces équiphases, sont perpendiculaires au gradient de S. Le gradient de l’eikonale 
pointe donc dans la direction locale de propagation. Les champs électrique et magnétique sont donc 
perpendiculaires à cette direction, contenus dans la surface d’onde. L’énergie électromagnétique se 
propage donc dans la direction du gradient de l’eikonale, perpendiculairement aux surfaces d’onde. 
Nous développerons plus avant ces arguments énergétiques dans un moment. Notons aussi que la 
deuxième équation montre alors que e, b et VS forment un trièdre direct. Notre onde a donc 
localement la structure d’une onde plane de vecteur d'onde effectif koV S. Il est évident qu’une 
approximation de champs lentement variables doit, comme ce sera le cas pour le rayonnement des 
sources à grande distance, conduire à une structure locale d’onde plane. 


4.2.1 Equation de l’eikonale 


Les deux premières équations de Maxwell ainsi écrites doivent admettre une solution pour e et b. Si 
on se donne VS en un point, ces deux équations forment, en termes des composantes cartésiennes des 
champs, un système linéaire homogène 6x6. En général, il n’admet que la solution triviale identique- 
ment nulle. Pour que e et b existent dans le cadre de cette approximation, il faut qu’en chaque point 
le gradient de l’eikonale prenne la valeur particulière qui annule le déterminant de ce système. Plutôt 
que d'écrire ainsi cette condition d'existence, nous allons procéder par substitution. De la seconde 
équation, on tire: 


b=VSxe/c, (4.18) 


qu’on porte dans la première. On obtient alors: 
VS x(VS xe)+ee/c=0. (4.19) 


En développant le double produit vectoriel et en utilisant le fait que e est perpendiculaire au gradient 
de l’eikonale et en introduisant finalement l’indice de réfraction, on met la condition d’existence des 
champs sous la forme: 


(VS) =n? (4.20) 


En tous points, l’eikonale doit vérifier cette relation pour que les champs existent. Une partie de 
l'arbitraire sur sa définition est donc levée. 
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4.2.2 Notion de rayon lumineux 


Pour préciser la notion de rayon lumineux, nous allons nous pencher sur les propriétés énergétiques 
des champs ainsi définis. Ecrivons d’abord le vecteur de Poynting, en valeur moyenne temporelle: 


4.21 
5 T (4.21) 


où l'étoile désigne la conjugaison complexe. Notons que l’eikonale, pur facteur de phase, s’élimine 
des quantités énergétiques en valeur moyenne. En exprimant alors le champ magnétique à partir de 
la deuxième équation de propagation, en développant le double produit vectoriel et en exploitant la 
géométrie, on a: 


TI = Re (e 6*)VS . (4.22) 


Pour éclairer cette équation, nous allons écrire la densité moyenne d’énergie électromagnétique, v. On 
a (voir cinquième partie): 

E0Er 

4 

On peut montrer rapidement que les contributions électriques et magnétiques à l'énergie sont égales 
(notons que c’est toujours le cas pour une onde plane qui est la structure locale de notre champ). 
En remplaçant, dans l'énergie électrique, e* par son expression en fonction de b* déduite de (4.14), 
e* = (cV S x b*)/e, (on notera que par définition VS est réel), on obtient un produit mixte: 


Ree-e* = SC [e, b*, VS]. (4.24) 


1 
u= Re e. e* + — Re b : b*. (4.23) 
40 


E0Er 


En remplaçant b* par son expression en fonction de e* déduite de (4.15) dans l’énergie magnétique, en 
remarquant que uoc = 1/epc, on constate sans peine que la contribution magnétique a une expression 
identique. Finalement, la valeur moyenne de l'énergie totale s’écrit: 
2 
Eon 
T= Z he e-e*. (4.25) 
En rapprochant cette expression de celle du vecteur de Poynting, on constate que celui-ci est propor- 
tionnel à la densité locale d’énergie. Pour alléger les notations, nous appellerons s le vecteur unitaire 


du gradient de l’eikonale: 


VS VS 
= = — 4.26 
S= WS n 426 
(on notera ici l'importance de l’hypothèse n réel). On a alors: 
TI = “5. (4.27) 


n 
On a donc bien une propagation de l’énergie dans la direction perpendiculaire aux surfaces d’onde, 
avec une vitesse c/n puisque le rapport entre le flux d'énergie et sa densité moyenne n’est autre que 
la vitesse de propagation (une vitesse de groupe en l’occurrence). Nous pouvons donc maintenant 
assimiler les lignes du champ VS aux rayons lumineux de l’optique géométrique. A condition de ne 
pas les limiter à une échelle de l’ordre de À — et de sortir donc de nos approximations d’enveloppes 
lentement variables — les lignes de VS décrivent effectivement les lignes géométriques de propagation 
de l’énergie. Comme ces lignes sont perpendiculaires aux surfaces d’onde, on obtient ainsi directement 
le théorème de Malus, qui indique que les rayons lumineux sont perpendiculaires aux surfaces d’ondet. 
Il nous reste maintenant à établir la trajectoire de ces rayons. 

1Notons que le théorème de Malus ne tient que dans les milieux diélectriques isotropes (dont la permittivité diélectrique 
est un scalaire). Dans les milieux biréfringents, on a encore localement une structure d’onde plane. Cette fois, D,B et la 
direction de propagation de la phase (le vecteur d’onde local) forment un trièdre direct. Mais le vecteur de Poynting est 
encore déterminé par E. Comme la relation entre D et E est tensorielle dans ces milieux, les deux vecteurs ne sont pas 
nécessairement alignés. Le vecteur de Poynting, qui définit la direction de propagation de l’énergie et donc la direction 


des rayons lumineux, n’est pas nécessairement aligné avec la direction de propagation de la phase, normale aux surfaces 
d’onde. Le théorème de Malus est donc en général inapplicable dans ces milieux. 
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4.3 Equation des rayons lumineux 


4.8.1 Rayons et eikonale 


Les rayons lumineux sont donc les lignes du champ de gradient de S. Il nous reste à établir la forme 
de ces lignes. Nous chercherons donc le rayon lumineux passant par un point arbitraire. Le rayon 
peut être défini par la forme intrinsèque r(s), position du point en fonction de l’abscisse curviligne 
s comptée sur le rayon à partir du point initial. Le rayon est effectivement une ligne de VS si, en 
chaque point, le vecteur tangent à la trajectoire est confondu avec le vecteur unitaire s du gradient 
(on prendra garde à ne pas confondre ce vecteur s avec l’abscisse curviligne s le long du rayon en dépit 
d’une fâcheuse homonymie). On doit donc avoir: 


dr 
a, 4.28 
er (4.28) 
ou encore, en multipliant les deux membres par n, longueur du gradient de l’eikonale: 
dr 
— = VS. 4.29 
Vas (228) 


Essayons d'écrire une équation intrinsèque pour r en éliminant l’eikonale. Pour cela, afin de manipuler 
commodément les indices, nous quittons pour un moment les notations standard de l’analyse vectorielle 
et adoptons les conventions d’Einstein de sommation. Nous écrirons les indices indifféremment en 
position contravariante ou covariante puisque nous faisons un calcul seulement avec des composantes 
purement spatiales. Ecrivons donc la quantité: 


—n— (4.30) 


d d; d 
Mais: ; 
d dr? 

OS = DOS . (4.32) 


En remplaçant dans cette expression dr/ds par İS /n, on a: 


d dri 1 à 
pe 9.19: J 
ae =8;lð:S]ə S 
1 ; 
= .[A. J 
zils S] 
— 1 2 
= or], (4.33) 


où nous avons utilisé l'équation fondamentale de l’eikonale dans le second membre. Finalement, 
l'équation intrinsèque du rayon lumineux s’écrit donc, en revenant aux notations standard: 


—n— = Vn. (4.34) 


Elle permet de déterminer complètement la trajectoire du rayon si on connaît la répartition spatiale 
d'indice. 
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4.8.2 Applications 


Pour regarder fonctionner cette équation, nous allons examiner rapidement quelques répartitions 
d’indice assez couramment rencontrées. Notons tout d’abord que notre équation ne s'applique pas 
a priori au cas d’un indice discontinu, tel que celui au voisinage d’un dioptre. On peut toutefois, en 
prenant la limite d’une variation continue de plus en plus rapide, en déduire les lois de la réfraction. 

Commençons par un milieu homogène, d’indice constant. Le gradient et nul et l’indice sort du 
premier membre, mettant l’équation du rayon lumineux sous la forme: 


— =0, (4.35) 


dont la solution est évidement une droite. Nous retrouvons donc la propagation rectiligne de la lumière 
dans un tel milieu. 

Considérons maintenant un milieu dont l'indice ne dépend que de la coordonnée z, avec une 
dépendance linéaire :n = no(1+az). C’est par exemple le cas de l’air quand il y a formation de mirage. 
L’air est beaucoup plus chaud au contact du sol, exposé au soleil, qu’en altitude. La densité, et donc 
l’indice, sont donc des fonctions croissantes de l’altitude z. Pour fixer les idées, nous considérerons 
un rayon se propageant de manière pratiquement horizontale dans un plan xOz. Nous pouvons alors, 
en première approximation, confondre l’abscisse curviligne s et la coordonnée x. Nous pouvons alors 
décrire le rayon simplement par son altitude z en fonction de x. La seule composante non nulle de 
l’équation (4.34) est selon z et se met sous la forme: 

d dz 


—n— = | 4. 
T d — 0 (4.36) 


En remarquant que n sort de la dérivation par rapport à x et en négligeant la variation de n par 
rapport à no sur l'étendue verticale de la trajectoire (il serait à peine plus difficile d’en tenir compte), 
nous mettons l'équation du rayon sous la forme: 
2 
ee = à (4.37) 
dont la solution est évidemment une parabole dont la concavité est dirigée vers le haut. Un rayon 
incident vers le sol en incidence rasante est réfléchi, ce qui donne au sol l’aspect d’un miroir à grande 
distance, d’où l’apparition de lacs au coeur des déserts... 

Considérons enfin le problème de la fibre optique à gradient d'indice. Il existe des fibres à saut 
d'indice, dont le cœur, d’un diamètre de quelques microns, a un indice plus élevé que le reste de la 
fibre. La lumière est alors guidée par réflexion interne totale sur le dioptre limitant le cœur. Il existe 
aussi des fibres à gradient d'indice, où la variation d’indice est continue et en général parabolique 
en fonction de la distance à l’axe. Il faudrait évidemment, comme les dimensions transverses sont de 
l’ordre de la longueur d’onde, au moins pour les fibres monomodes, recourir à une approche ondulatoire. 
Nous allons nous contenter ici de comprendre qualitativement le confinement de la lumière par une 
image géométrique. Nous postulerons donc que l’indice est à une distance r de l’axe de la forme 
n = no(1— ar?) (a > 0). Nous emploierons une géométrie très voisine de celle du mirage. Dans un 
plan xOz (x est laxe de la fibre), nous écrivons la trajectoire d’un rayon paraxial. Nous pouvons 
encore confondre s et x, remarquer que n est indépendant de x et varie très peu par rapport à sa 
valeur no sur l’axe. Le rayon est alors entièrement décrit par z(x) et son équation de propagation 
s'écrit: 

dz 

dx? 
dont la solution est évidemment une sinusoïde. Le rayon oscille donc autour de l’axe dont il reste 
à distance finie. Les rayons sont effectivement guidés dans cette géométrie. On remarquera que, si 
a était négatif, on obtiendrait des solutions divergentes où le rayon s’éloigne indéfiniment de l’axe. 
Comme on pouvait s’y attendre, une fibre ne guide la lumière que si l’indice est maximal au centre. 


= —2az, (4.38) 
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4.8.3 Principe de Fermat 


Nous avons ici dérivé l’équation de propagation des rayons lumineux de l’approche eikonale. Elle 
peut en fait être déduite aussi du principe de Fermat, principe variationnel qui stipule que le trajet 
effectivement suivi par la lumière réalise un extremum du temps de parcours (en général un minimum). 
Montrons que c’est effectivement le cas par un calcul élémentaire de variations (on pourra se reporter 
aux résultats de la première et de la deuxième partie pour se familiariser à nouveau avec ces calculs 
dont nous ne détaillerons pas ici le principe). 

Nous considérons un rayon lumineux décrit par l'équation intrinsèque r(s) et un rayon infiniment 
proche, partant du même point et arrivant au même point. L'écart entre ces deux rayons peut s’écrire 
ôr(s), paramétré par l’abscisse curviligne sur le rayon de référence. Le temps de parcours sur le rayon 
de référence, f nds, est extrémal. Sa variation au premier ordre dans les ôr quand on passe au rayon 
varié doit être nulle. Or, 


af nds= | (mas + f nôds , (4.39) 


où le premier terme décrit la variation d’indice quand on passe d’une trajectoire à l’autre, le second 
la variation de longueur de l’élément de trajectoire. On a évidemment: 


ôn = Vn- ôr. (4.40) 


Pour estimer le second terme, nous considérons un élément différentiel ds de la trajectoire de référence. 
L'élément correspondant de la trajectoire variée a pour longueur: 


ds + ds = Vds? + 2dr - dôr , (4.41) 


d’où on tire sans peine: 


dr 
ôds = q! ; (4.42) 


Dans tout ce calcul, nous avons considéré les accroissements de trajectoire comme des infiniments petits 
par rapport aux éléments différentiels de ces mêmes trajectoires. En écrivant finalement l'intégration 


par parties traditionnelles: 


dr d dr 


où le terme tout intégré est nul puisque trajectoire de référence et trajectoire variée coïncident aux 
extrémités, on met en facteur ôr. D’intégrale de variation n’est nulle pour tout accroissement que si 
le facteur de ôr est nul. Il est évident que l'équation ainsi obtenue est précisément (4.34). L’approche 
eikonale est donc strictement équivalente au principe de Fermat. 
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Partie IV 


Sources du champ électromagnétique 
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Introduction 


Nous allons nous intéresser, dans cette partie, au champ électromagnétique produit par un certain 
nombre de sources. Si la solution des équations de Maxwell en termes de potentiels retardés et de 
fonctions de Green est parfaitement générale et explicite, elle ne fournit pas en général une solution 
physiquement transparente. Nous allons donc, dans cette partie, considérer des mouvements de charges 
ou des répartitions de courant bien particulières mais choisies pour leur grande importance physique, 
et écrire explicitement le champ produit. Très souvent, nous nous contenterons d'examiner les champs 
rayonnés à grande distance. Nous verrons en effet que le champ peut se mettre sous la forme d’un 
développement en puissances de l'inverse de la distance à la source r. A très grande distance, ce 
développement est dominé par le premier terme, en 1/r. Des champs en 1/r conduisent à un flux 
d'énergie électromagnétique en 1/r? et donc à un flux d'énergie fini à travers une sphère de rayon 
r. Seule cette partie du développement du champ conduit à une propagation à grande distance de 
l'énergie électromagnétique. 

Nous examinerons essentiellement trois types de sources dans les trois chapitres de cette par- 
tie. Nous commencerons par étudier le champ rayonné par une particule unique, éventuellement 
relativiste, dont le mouvement est imposé mais arbitraire. Nous montrerons ainsi qu’une particule 
relativiste rayonne de façon particulièrement intense quand elle est accélérée et nous décrirons les 
effets et les applications de ce rayonnement qui joue un rôle de premier plan dans les accélérateurs de 
particules. Nous examinerons ensuite le cas beaucoup plus simple d’une particule ayant un mouve- 
ment sinusoïdal de petite amplitude autour de l’origine. Nous retrouverons ainsi le champ d’un dipôle 
électromagnétique oscillant. En raison de la très grande importance de ce problème dans des domaines 
variés, nous examinerons en détail le champ émis sans nous cantonner au champ rayonné. 

Dans le deuxième chapitre, nous nous pencherons sur le champ rayonné par une répartition lo- 
calisée de courants oscillants. Nous montrerons que le champ rayonné à une distance grande de- 
vant la taille caractéristique de la source peut s'exprimer comme un développement en puissances de 
l’extension caractéristique de la source divisée par la longueur d’onde émise. Le premier terme de 
ce “développement multipolaire” nous redonnera le rayonnement du dipôle que nous placerons ainsi 
dans un cadre plus général. Notons que les résultats obtenus ici seront au centre de notre approche de 
l’électromagnétisme dans la matière dans la prochaine partie. Nous terminerons ce chapitre en discu- 
tant de plusieurs répartitions de courants exemplaires. Nous aborderons en particulier très brièvement 
le problème des antennes, d’une importance cruciale pour les télécommunications. 

Dans le troisième chapitre, nous appliquerons les résultats sur les rayonnements multipolaires 
au cas des sources microscopiques. Nous nous poserons en fait essentiellement le problème de la 
diffusion du rayonnement par un atome unique. Nous commencerons par donner un modèle classique, 
extrêmement naïf de prime abord, de la dynamique de l’atome. Nous pourrons alors explicitement 
calculer la réponse atomique à un champ incident. Nous essaierons ensuite de donner les éléments 
essentiels d’un modèle quantique de la réponse atomique à un champ classique (nous ne pourrons 
bien sûr donner le seul modèle rigoureux qui impose de quantifier le champ). Nous montrerons que 
les résultats du modèle classique sont étonnamment exacts pour la diffusion d’un champ faible non 
résonnant avec une fréquence de Bohr de l’atome. Nous conclurons ce chapitre en examinant très 
brièvement, dans le modèle quantique, la réponse d’un atome à un champ résonnant. 
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Chapitre 1 


Rayonnement d’une particule en 
mouvement 


Nous nous pencherons dans ce chapitre sur le problème du rayonnement d’un charge ponctuelle unique 
en mouvement arbitraire, éventuellement relativiste. Le problème général du mouvement d’une charge 
est extrêmement complexe. Il résulte en effet à la fois des forces imposées à la charge et du champ 
produit par la charge elle-même. Comme nous le verrons, une charge en mouvement rayonne. Ce 
rayonnement conduit à une perte d'énergie mécanique que l’on peut interpréter comme résultant d’une 
force produite sur la charge par son propre champ, la force de réaction de rayonnement. D’une part, 
la modélisation de cette force n’est pas sans poser des difficultés mathématiques (dans le cas d’une 
charge ponctuelle, on peut s’attendre à des problèmes de divergence — nous aborderons ce problème 
à la fin de ce chapitre). D’autre part, la résolution des équations est très difficile dans le cas général. 

Nous nous cantonnerons donc à étudier le rayonnement d’une particule dont le mouvement est 
imposé. Nous négligerons l’action des forces de réaction de rayonnement par rapport aux forces qui 
fixent la trajectoire de la particule. Nous verrons, en discutant de situations physiques concrètes, que 
cette approximation est souvent excellente. Comme nous envisagerons le cas de particules relativistes, 
il serait tout naturel de nous placer dans le formalisme de l’électrodynamique relativiste et de n’écrire 
que des quantités explicitement covariantes, indépendantes du référentiel. Si cette approche est la plus 
élégante et, du point de vue des calculs, la plus compacte (on consultera à ce sujet le Jackson), elle 
ne révèle pas les interprétations physiques les plus transparentes des résultats obtenus. Nous verrons 
en particulier que le renforcement considérable du rayonnement dans la direction de la vitesse a une 
interprétation cinématique très simple. Nous nous placerons donc dans un référentiel R particulier et 
manipulerons l’espace et le temps dans ce référentiel uniquement. Bien sûr, les résultats finaux seront 
rigoureux. On pourra trouver les champs dans un référentiel quelconque par une simple transformation 
de Lorentz. Nous donnerons également pour mémoire les solutions explicitement covariantes. 


1.1 Potentiels de Liénard-Wiechert 


Nous considérons donc une particule de charge q dont le mouvement, imposé, est décrit par la trajec- 
toire ro(t’) (voir figure 1.1). Nous cherchons le champ observé au point r à l’instant t. Pour cela, nous 
déterminerons d’abord les potentiels scalaires et vecteurs que nous dériverons ensuite pour obtenir les 
champs. Avant cette dérivation, dans tout le calcul des potentiels, la position “d’observation” r et 
l'instant t sont donc fixés. Nous noterons n(t') le vecteur unitaire de la particule, prise à l'instant t’, 
vers le point d’observation. Nous noterons enfin R(t’) = |r — ro(t’)| la distance entre la particule et le 
point d’observation. 
La densité de charge et de courant représentant la charge ponctuelle peuvent s’écrire: 


plr, t) = qô(r—ro(t)) (1.1) 
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Figure 1.1: Rayonnement d’un charge en mouvement: notations. 


jt) = g(t) — ro(#)), (1.2) 


où v = dro/dt' est la vitesse de la particule à l'instant #’. En nous plaçant en jauge de Lorentz, 
nous pouvons écrire les potentiels en fonction de ces densités de charge et de courant au moyen de la 
solution en potentiels retardés. Comme les calculs sont identiques pour le potentiel scalaire et chaque 
composante du potentiel vecteur, nous ne traiterons explicitement que le premier. Le potentiel peut 
donc s’écrire: 


1 r' tE — t+ |e -r/(#)l/c 

ve =L f aM -tte OA E 
ATEo |r — r'(t')] 

Où l’on notera que nous avons changé le signe de l'argument de la fonction ô spatio-temporelle par 

rapport aux conventions utilisées dans la partie précédente. Ce changement de signe, effectué pour 

des raisons de commodité, n’a bien sûr aucune conséquence sur le résultat final. On a donc encore: 


= roO =t |e = relo) 


q ôlr 
ve = i aa PTT (14) 


Sous cette forme, l’intégrale sur r’ est triviale: seul contribue le point r’ = ro(t’). En posant alors: 


gt) =t -t+ ro f (1.5) 


on met V sous la forme: 


a f ôl) y 
V(r,t) = I dt . 1.6 
(r,t) Led RO (1.6) 
Seul contribuera à l'intégrale sur le temps l'instant to tel que g(to) s’annule (en supposant, ce que nous 
allons montrer, que cet instant existe et est unique). 

On peut facilement comprendre la signification physique de l’instant to. Il est tel que: 
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Figure 1.2: Intersection du cône de lumière de l'observateur et de la ligne d’univers de la particule. A gauche: particule 
s’éloignant de l'observateur. A droite: particule relativiste venant vers l’observateur. Seule compte pour le calcul des 
champs l'intersection située dans le passé. Le champ reçu est d’autant plus grand que la particule reste plus longtemps 


au voisinage du cône de lumière. 


c’est à dire tel qu’un signal lumineux émis par la particule à l'instant to arrive, après s’être propagé à 
la vitesse c, au point d'observation précisément à l’instant t. Bien sûr, la forme même de l’équation 
impose à tọ d’être plus petit que t. En fait, to est la coordonnée temporelle de l’intersection de la 
ligne d’univers de la particule avec le cône de lumière de l’événement d’observation (voir figure 1.2). 
Comme la pente de la ligne d’univers dans un diagramme d’espace-temps est toujours plus petite que 
celle du cône (la vitesse de toute particule chargée, donc massive, est toujours plus petite que c), il y 
a deux intersections et deux seulement entre la ligne d’univers et le cône de lumière. D’une est située 
dans le passé et sa coordonnée temporelle correspond à l’instant to que nous cherchons. L’autre est 
située dans le futur de l’observateur et ne peut correspondre à une solution de l’équation donnant 
to. En fait, ce point dans le futur serait le seul à contribuer au potentiel si nous avions, en dépit 
de la causalité, choisi la solution en termes de potentiels avancés. Nous avons donc bien montré que 
l'instant to, qui va jouer un rôle central dans toute la suite de la discussion, existe et est unique. 

L’équation (1.6) fait intervenir la distribution 6(g(t')). Pour l'identifier, faisons-la agir sur une 
fonction régulière arbitraire f(t’). En posant u = g(t’) (ce changement de variable est régulier puisque 
seuls les points voisins de tọ contribuent à l'intégrale), nous pouvons écrire: 


1 Aai õlu) f(g (u)) n, f(to) 
J e= S) TO E De: ve 


en désignant par g’ la dérivée de g par rapport à son argument. La valeur absolue de la dérivée au 
dénominateur est obtenue en ordonnant les bornes de l’intégration quand la fonction g est décroissante 
au voisinage de tọ. En termes de distributions, on a donc: 


ô(t — to) 


SGEN = oo 


(1.9) 
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Dans toute la suite, nous ne considérerons que des fonctions g qui sont croissantes au voisinage de 
leur zéro. Nous pourrons donc omettre à partir de maintenant les valeurs absolues au dénominateur. 
L'intégrale sur t dans l’expression du potentiel V est donc triviale et on trouve: 


o q 1 1 
4reo g' (to) R(to) ` 


(1.10) 


Pour obtenir une forme plus explicite du potentiel, il nous reste à exprimer g/(to) en fonction des 
paramètres cinématiques de la particule. A partir de (1.5), nous trouvons par simple dérivation: 
ðR(ť R dR n(t')- v(t 

ere CEE. (1.11) 


lfl 
=1 Zea 
g (E) +t- R dt c 


où nous avons posé R = r — ro, dont la dérivée par rapport au temps t est l’opposé de la vitesse de 
la particule en t’. On a donc g'(to) = 1 — n - v/c. Nous conviendrons dans toute la suite de prendre 


N 


les fonctions de # à l'instant to quand leur argument est omis. On a donc finalement: 


1 1 
Eeer a e (1.12) 
4reo 1 — n - v/c R(to) 
et, par un raisonnement analogue, 
1 
Å - (1.13) 


| Are l— n-v/cR(to) ` 


Ces expressions constituent les potentiels de Liénard-Wiechert. Ils ne différent des potentiels de 
l’électrostatique ou de la magnétostatique que par le terme cinématique 1/g/. Pour une particule 
immobile, on retrouve bien les expressions statiques. Pour une particule en mouvement, en revanche, 
les potentiels de Liénard peuvent être très différents des potentiels statiques. Pour une particule rela- 
tiviste en particulier (v œ c), le facteur g’ s’annule pratiquement quand n et v sont de même direction. 
Le potentiel est donc beaucoup plus grand dans la direction du mouvement de la particule que dans 
la direction opposée (le facteur g' étant alors voisin de 2). Le champ d’une particule relativiste est 
donc concentré vers l’avant. Nous verrons dans le prochain paragraphe les importantes conséquences 
de cette concentration. 

On peut comprendre le renforcement des potentiels vers l’avant en termes purement cinématiques. 
Considérons les deux lignes d’univers illustrées sur la figure 1.2. A gauche, la particule relativiste 
traverse le cône de lumière de l’événement d'observation pratiquement perpendiculairement. A droite, 
la particule se dirige vers l’observateur et sa ligne d’univers est pratiquement tangente au cône de 
lumière. Dans le second cas, la particule reste beaucoup plus longtemps “en vue” de l’observateur 
que dans le premier. En d’autres termes, un intervalle de temps dt pour l’observateur correspond à 
un intervalle de temps retardé dt! pour la particule d’autant plus long qu’elle se dirige vers lui avec 
une plus grande vitesse. En quelque sorte, c’est un effet de sillage. Quand un bateau se déplace à 
une vitesse proche de celle des ondes capillaires à la surface de l’eau, les ondes émises à des instants 
différents s'accumulent et se renforcent à l’avant. En revanche, les ondes s’espacent vers l'arrière 
d’avantage que si le bateau restait immobile. Le même genre de phénomène, purement cinématique, 
est à l’origine du phénomène qui nous intéresse ici. 

L’analogie en termes de sillage nous permet d’ailleurs de discuter qualitativement d’un autre 
phénomène intéressant. Si le bateau se déplace à une vitesse inférieure à celle des ondes capillaires, 
il n’y a pas de sillage à proprement parler. Le sillage “en V” correspond au cas où la vitesse du 
bateau est supérieure à celle de ces ondes. Les ondes rayonnées par le bateau à des instants différents 
s’additionnent alors le long d’un cône (deux lignes dans cet espace à deux dimensions) dont l’ouverture 
dépend du rapport de la vitesse des ondes et du bateau. Ces lignes constituent en fait une onde de 
choc et sont très analogues aux caustiques de l’optique. À trois dimensions, le même phénomène 
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s’observe pour un avion en vol supersonique. Le passage de l’onde de choc sur un observateur est 
responsable du célèbre “bang” (double en raison de la structure complexe de l’avion dont différentes 
parties génèrent des ondes de choc différentes). En l’absence de toute non linéarité, pour un “bateau” 
ponctuel, l’amplitude des ondes capillaires devrait diverger sur cette ligne. Nous ne pouvons bien 
sûr obtenir le même phénomène ici puisque la particule se déplace nécessairement moins vite que la 
lumière. Ce ne serait pas le cas si nous considérions une particule relativiste en mouvement dans 
un milieu matériel présentant un indice de réfraction élevé. Rien n'empêche alors la particule de se 
déplacer plus vite que la lumière dans le milieu. Il se forme alors un véritable “sillage”, un cône le long 
duquel le champ électromagnétique est considérablement renforcé. Ce phénomène est responsable de la 
célèbre “radiation Cherenkov”. Une lumière bleue relativement intense est émise par des particules en 
mouvement relativiste dans un milieu matériel. Ce rayonnement se manifeste par exemple autour des 
réacteurs immergés dans des piscines d’eau lourde. Il est également utilisé pour réaliser des détecteurs 
de particules, l’énergie de ce rayonnement donnant une indication de l’énergie de la particule. Même 
si ce phénomène n’existe pas dans le vide, nous allons montrer que le renforcement du champ “vers 
l’avant” a des conséquences importantes. 

Notons pour finir que nous avons établi ici les potentiels de Liénard par un raisonnement non 
explicitement covariant, dans un référentiel donné. On peut établir une version purement relativiste 
de ces potentiels en écrivant une version complètement covariante des potentiels retardés. Le lecteur 
intéressé trouvera la dérivation explicite dans le Jackson. Nous ne donnerons ici que la forme finale 
du 4-potentiel: 

i q U" (To) 


nt. GS. 1.14 
4reoc? U” (Ry — Roy (To)) | Nr 


où les R, sont les coordonnées covariantes de l’événement d'observation, les Ro, celles de la particule 
et To le temps propre de la particule à l'événement où elle croise le cône de lumière de l’événement 
d'observation. Notons que ce que nous gagnons en généralité et en covariance est largement perdu en 
clarté de l’interprétation physique. L'aspect purement cinématique du renforcement vers l'avant est 
loin d’être apparent sur ce genre d'expression. 


1.2 Champs rayonnés 


Nous calculerons dans ce paragraphe les champ rayonnés par la particule. Il nous suffit pour cela, 
au moins formellement, de dériver les expressions des potentiels de Liénard-Wiechert. En fait, nous 
aurons à faire face à deux difficultés. La première est que, sans préciser d'avantage le mouvement de 
la particule, nous ne connaissons le temps “retardé” to que comme solution d’une équation implicite. 
Il nous faudra donc procéder avec soin pour obtenir quand même des expressions explicites pour les 
champs. L'autre point est qu’en procédant aux dérivations des potentiels en 1/R, nous allons obtenir 
les champs comme une somme de termes faisant intervenir 1/R et ses dérivées successives 1/R? et 
1/R?. Si les calculs ne présentent aucune difficulté de principe, ils sont assez lourds. De plus il n’est 
généralement pas indispensable de garder ces termes. 

On s'intéresse en effet surtout en pratique au champ produit par la particule à une grande distance. 
On peut donc ne garder, dans ce développement, que le terme en 1/R, qui domine tous les autres. 
Une autre manière de le voir est de considérer le vecteur de Poynting. Les termes en 1/R dans E 
et B donnent un flux d’énergie en 1/R?. La quantité d'énergie traversant une sphère de rayon R est 
donc finie. Ces termes correspondent bien à un transport d'énergie vers l'infini, à un rayonnement. 
En revanche, la combinaison de termes d’ordre supérieur dans E et B donne des contributions au 
vecteur de Poynting décroissant plus vite que 1/R?. La quantité d'énergie traversant la sphère de 
rayon R décroît donc avec R, au moins comme 1/R. Ces termes ne correspondent qu’à des “champs 
proches” (comprenant, au moins, les champs statiques en 1/R?), en général sans importance. Nous 
ne garderons donc, au cours de nos dérivations, que les termes dominants dans les développements en 
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puissances de 1/R. Nous verrons, dans le dernier paragraphe de ce chapitre, ce que sont les résultats 
quand on conserve tous les termes dans le cas particulièrement simple du dipôle oscillant. 

Notons également qu’on peut s'attendre à ce que le champ rayonné présente une structure d’onde 
plane. Si la source est harmonique, les potentiels doivent avoir une structure d’onde sphérique. Suff- 
isamment loin de l’origine et dans un volume suffisamment local, le vecteur d’onde (radial) est pra- 
tiquement uniforme et l’onde sphérique a pratiquement une structure d’onde plane. E et B doivent 
donc être orthogonaux entre eux et à n et leurs modules doivent être dans un rapport c. Pour une 
source quelconque, la linéarité de l’électromagnétisme et les propriétés de la transformée de Fourier 
assurent que cette géométrie se conserve. Nous pourrions nous contenter de ne calculer que le champ 
électrique et en déduire le champ magnétique par ce genre d'arguments. Nous ferons cependant les 
deux calculs pour conforter notre confiance dans ces arguments qualitatifs. 

Avant d'entreprendre le calcul des champs rayonnés, nous allons établir un certain nombre de 
formules utiles. 


1.2.1 Dérivées utiles 


Nous aurons besoin de dériver la fonction implicite tọ par rapport aux coordonnées et à l’instant 
d'observation. En effet to dépend de t mais aussi de r par l'intermédiaire de (1.7). A partir de cette 
équation, on trouve en effet: 

ôto = 1 OR(to) 


Ət c U 
EE e LN (1.15) 


Nous avons déjà calculé la dérivée de R par rapport à tọ pour trouver lexpression de g'. Elle vaut 
—v-n. On a donc: 


Oo n : v ðto 
— = — , 1.16 
ot c ót ( ) 
ce qui nous donne immédiatement: 
oto 1 
— = —. 1.17 
ðt g'(to) (EIA) 


Nous trouvons ainsi une justification à nos raisonnement qualitatifs sur le renforcement cinématique 
des potentiels vers lavant. Plus g/ est petit, plus à un intervalle de temps donné pour l'observateur 
correspond un grand intervalle de temps retardé pour la particule. A la limite d’un mouvement ultra- 
relativiste, observateur “accumule” dans un intervalle de temps extrêmement court tous les champs 
produits par la particule. 
On peut utiliser la même démarche pour exprimer Vto (la dérivée s’entendant par rapport à r). 
Ona 
Vto =- VR (1.18) 


Dans le gradient de R, nous devons distinguer deux termes. Le premier provient de la dépendance 
explicite de R = |r — ro] en r. Le gradient associé est évidemment radial. Le deuxième provient de la 
dépendance implicite de R par l'intermédiaire de ro, qui est lui même une fonction de to et donc de r. 
De manière évidente, ces deux termes s'ajoutent et on a: 


Or — 10R 
se To (1.19) 


Vto = — ; 
9 côr c ôto 


La première dérivée partielle s'entend à ro constant. Elle est évidemment égale à 1. La deuxième 
vient d’être rappelée. On trouve donc: 


n 


y (1.20) 


n 
Vito = —— + 
C C 
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et finalement: 
Vernet (1.21) 
g'(to) c 
Nous avons pu mettre les dérivées utiles sous une forme particulièrement simple, toujours en termes 
du facteur cinématique 1/g/. 


1.2.2 Champ électrique 


Le champ électrique s'écrit bien sûr 


OA 
E = -— - VV. 1.22 
z (1.22) 
La dérivée partielle de A par rapport au temps s’écrit: 
A  ðAðto 1 q ô | v l (1.23) 
ot E ato ot E g' (to) AT Eoc? ôto g'(to)R(to) ` 


Dans la dérivée du crochet par rapport au temps retardé to, il apparaît des termes en 1/R correspon- 
dant à la dérivée de v/g'. La dérivée de 1/R, pour sa part, donne des termes en 1/R? que nous devons 
négliger. À cet ordre d’approximation, nous avons donc: 


OA q 1 18 v 
ðt  Areoc? g'(to) R Oto g' (to) 
1 1 
rs [ag — vg"] , (1.24) 


_ 4reoc g3 (to) R 


l’accélération a étant elle aussi évaluée au temps retardé to. 

Le gradient du potentiel scalaire fait intervenir la dérivée partielle par rapport au temps retardé 
multipliée par le gradient du temps retardé par rapport au point d'observation. En toute rigueur, il 
fait aussi intervenir le gradient de la dépendance explicite du potentiel retardé par rapport au point 
d'observation. Ce gradient est toutefois en 1/R?, tant pour la dérivée de la partie électrostatique 
en 1/R que pour la dérivée du facteur cinématique. Celle ci fait en effet intervenir le gradient de 
n, qui est en 1/R, facteur qui est à multiplier par la dépendance électrostatique en 1/R. A l’ordre 
d’approximation où nous nous sommes placés, ces termes sont négligeables et nous ne conserverons 
que le premier terme. On a donc: 


OV q n ð È z (1.25) 


= — t — OEN 
ôto o Axeo cg’ ôto Lg! R 
Comme précédemment, nous ne garderons pas les termes faisant intervenir la dérivée de 1/R et nous 


avons: 
q ng” 1 


Areo cg R ` 
En regroupant avec les termes provenant du potentiel vecteur, nous trouvons finalement l'expression 
complète du champ électrique: 


-VV =- (1.26) 


q 1 
Se eR [(cn — v)g” + ag] . (1.27) 
Il ne nous reste plus à exprimer que g”. Partant de g = 1 — n - v/c, nous obtenons 


1 1 
us he (1.28) 


La dérivée de n par rapport à tọ est évidemment d’ordre 1/R. Ce terme donnerait une contribution 
au champ en 1/R? et doit être écarté. A l’ordre où nous nous plaçons, g” = -n-a/c. Notons 
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finalement qu’on peut regrouper les termes entre crochets dans l’expression du champ en un double 
produit vectoriel et écrire enfin: 


q 1 1 


B maod R(1-n:v/c x [(n—v/c) x a] . (1.29) 


Nous discuterons du contenu physique de cette équation après avoir calculé le champ magnétique. 


1.2.3 Champ magnétique 
Nous calculerons bien sûr le champ magnétique par B = V x A. On a donc: 


q v 
4Tegc? g'R 


(1.30) 


Dans cette expression, les trois termes dans le rotationnel dépendent de la position, soit directement, 
soit par l'intermédiaire du temps retardé. Notons d’abord que dériver le terme en 1/R ferait apparaître 
des termes en 1/R? que nous devons écarter. Nous pouvons donc écrire: 

q 1 v 


z —V x —. 1.31 
4reoc? R g' RD 


Dans cette expression, en posant u = v/g/, 


Ou 
Vxu = ijkOjUR = eijk0 to = 
ato 
ðu a vg" 
= Vto x — = Vto x (— — —= 
ln g'n 
= PRET ARE (1.32) 


Nous avons utilisé les conventions d’Einstein! et le tenseur complètement antisymétrique de rang 3, 
Cijk: 
Le champ magnétique s'écrit donc finalement: 
oi di 
- Are? Rg ce 


n x [vg" — ag'] . (1.33) 


En comparant cette expression à (1.27), nous remarquons immédiatement que 


1 
B=-nxE. (1.34) 
C 


1.2.4 Discussion physique 


L’équation précédente indique, comme nous y attendions, que l’onde émise présente localement la 
structure d’une onde plane. Le champ se propage selon la direction radiale n, les champs électrique et 
magnétique étant perpendiculaires et dans un rapport c. Ces champs ne sont non nuls que si la particule 
est accélérée. Une particule animée d’un mouvement de translation uniforme ne rayonne pas. C’est 
une simple conséquence de l’invariance relativiste. Si la particule rayonne, elle doit emprunter l’énergie 
émise à son énergie cinétique. Une particule qui rayonne doit voir sa vitesse se modifier. En se plaçant 
dans le référentiel initial de la particule, cela indiquerait qu’une charge au repos pourrait acquérir 

lEncore une fois, dans l’espace à trois dimensions, il n’y a pas lieu alors d'établir de différence entre les coordonnées 


covariantes et contravariantes. Nous écrirons en conséquence tous les indices en position basse. Nous adopterons 
systématiquement cette convention dans la suite de ce chapitre. 
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spontanément une vitesse, ce qui est absurde. Notons enfin que le renforcement cinématique dans la 
direction du mouvement est considérablement accru pour les champs. Le facteur 1/g' apparaissant 
dans les potentiels est en effet remplacé par un facteur 1/g%. Ce renforcement est simplement du 
au fait que les potentiels, tout en étant plus grands dans la direction du mouvement, ont aussi une 
dépendance spatiale plus rapide. Notons toutefois que les champs sont considérablement réduits dans 
la direction même du mouvement pour une particule ultra relativiste (dépendance en n — v/c de 
l'équation (1.29)). Pour une particule animée d’une vitesse faible devant c, le champ est réparti dans 
tout l’espace et peut même être maximum dans une direction orthogonale à la vitesse (on le verra 
dans le cas du dipôle). 

Il est facile de calculer, à partir des champs, le vecteur de Poynting décrivant l’énergie rayonnée. 
Notons d’abord qu'il est colinéaire à n, dirigé vers l’extérieur. Son module s'écrit: 


g__mxf(n-v/c) x al? 


= À 1.35 
1672e0c  R?(1—-n:v/c) Wen 


Le facteur cinématique est ici élevé à la puissance 6. Le rayonnement d’une particule ultra-relativiste 
s'effectue essentiellement vers l’avant en termes énergétiques. Cette expression doit être utilisée avec 
prudence si on désire déterminer la perte d’énergie de la particule à partir de l’énergie du champ 
rayonné. Nous avons calculé ici le flux d’énergie par unité de temps au point d'observation. Par 
intégration spatiale sur une sphère de rayon R centrée sur la particule, on en déduira l’énergie rayonnée 
par unité de temps dans le référentiel du laboratoire. Pour estimer l’effet du rayonnement sur le 
mouvement de la particule, il nous faudra estimer la quantité d'énergie émise par unité du temps 
retardé tp. On prendra garde au facteur cinématique 1/g' entre ces deux unités de temps. 

Pour des particules ultra-relativistes, l'énergie rayonnée peut être très importante. Ce rayon- 
nement peut avoir des conséquences utiles ou néfastes. Il est d’abord utile comme source intense de 
rayonnement électromagnétique de haute fréquence. Le cône de rayonnement est en effet si étroit 
qu'il ne passe sur l’observateur, au cours du mouvement de la particule, que pendant un très bref 
instant. Les fréquences caractéristiques associées à une impulsion brève étant élevées, le rayonnement 
d’une particule relativiste peut atteindre le domaine des rayons X ou y. Les tubes standard à rayons 
X, utilisés en radiographie, utilisent une forme “désordonnée” de ce rayonnement. Des électrons 
d'énergie modérée (50 keV) frappent une anode (appelée “anticathode” dans ce cas) constituée d’un 
métal lourd. Passant au voisinage de noyaux fortement chargés, les électrons sont fortement accélérés. 
Ils rayonnent alors leur énergie sous forme de lumière. En fait, ils perdent une fraction notable de leur 
énergie à chaque déflexion, sous forme de photons X dont l’énergie est voisine de l’énergie initiale de 
l’électron (notons que nos approximations ne sont guère valables dans ce cas). C’est en raison de ce 
mécanisme de perte d'énergie dans la matière que le rayonnement des particules accélérées est souvent 
appelé Bremsstrahlung, ou rayonnement de freinage. On comprend ainsi aussi pourquoi les électrons 
pénètrent beaucoup moins dans la matière que des particules plus lourdes (protons, par exemple). 
Etant beaucoup plus légers, ils sont plus fortement accélérés par les champs nucléaires et perdent leur 
énergie plus rapidement. En pratique, des électrons d’énergie modérée ne pénètrent que de quelques 
microns au plus dans de la matière dense, alors que des protons d'énergie comparable sont capables 
de l’irradier beaucoup plus profondément. 

Le rayonnement de freinage dans les anticathodes des tubes à rayons X n’est pas du tout contrôlé. 
Le rayonnement émis est essentiellement isotrope et présente un très large spectre. Comme il est très 
difficile de réaliser des composants optiques dans le domaine des rayons X, il n’est guère possible de 
récupérer et de refocaliser ce rayonnement pour des applications fines. On doit souvent se contenter des 
“ombres chinoises” de la radiographie classique. On peut contrôler beaucoup mieux le rayonnement 
en organisant l’accélération. C’est par exemple ce qu’on réalise dans les sources de “rayonnement 
synchrotron” (nous verrons plus loin l’origine de ce nom) à “onduleur”. On fait passer un faisceau 
d'électrons énergétiques dans un champ magnétique intense spatialement modulé (produit, par exem- 
ple, par une chaîne d’aimants permanents montés en quinconce). La trajectoire de l’électron est alors 
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ondulée, avec une forte accélération au voisinage des extrema de l’élongation transversale. Un rayon- 
nement intense est alors émis dans la direction de propagation, avec un spectre relativement étroit. 
On peut ainsi réaliser des source intenses et directives de rayonnement X. Leur seul inconvénient est 
de nécessiter un anneau de stockage pour les électrons! Pour des intensités de faisceau suffisantes et 
dans le domaine micro-onde ou optique, le milieu électronique peut présenter un gain suffisant par 
émission stimulée pour le fonctionnement d’un laser. La fréquence peut en principe être accordée dans 
une très large gamme en modifiant l’énergie des électrons. Très utilisés dans le domaine infrarouge 
proche ou lointain, ces lasers n’ont été utilisés dans le domaine visible qu’à l’état de démonstrations 
de principe. Les lasers à colorant ou à sources solides, beaucoup plus simples et moins coûteux, ont 
en effet des performances supérieures. 


Le rayonnement de freinage peut avoir des conséquences aussi pour des énergies beaucoup plus 
faibles. Dans le premier modèle quantique de Bohr Sommerfeld, les électrons orbitent autour du 
noyau sur des orbites elliptiques classiques. Certains paramètres de l’orbite sont quantifiés, c’est à 
dire déterminés par un nombre entier: l’énergie par le nombre quantique principal, le moment cinétique 
et l’orientation de l’orbite par les nombres quantiques orbitaux et magnétiques. Pour les orbites les 
plus elliptiques, l’électron est très fortement accéléré quand il passe près du noyau. Il doit donc 
rayonner une quantité d’énergie importante et on peut s’attendre à ce que la durée de vie de ces 
niveaux soit assez brève. Les orbites de moment angulaire maximum, au contraire, correspondent 
à une trajectoire électronique circulaire. L’accélération est minimale et on peut s’attendre à ce que 
la durée de vie de ces niveaux soit beaucoup plus importante. Ce raisonnement semi-classique ne 
peut pas rendre correctement compte des propriétés des niveaux profonds. En revanche, en vertu du 
principe de correspondance, il doit décrire convenablement les niveaux de grands nombres quantiques 
principaux, les “états de Rydberg”. On constate en effet que les états de Rydberg ” circulaires”, de 
moment orbital maximum, ont une durée de vie plus de 100 fois plus longue que des états de même 
énergie, mais de faible moment angulaire. Nous donnerons les bases du calcul de ces durées de vie 
dans les paragraphes suivants. 


Si le rayonnement de freinage a des effets bénéfiques, il est aussi une limitation importante aux 
performances des accélérateurs de particules. Dans les accélérateurs les plus répandus, descendants du 
“synchrotron”, on courbe avec un champ magnétique la trajectoire des particules en forme de cercle. 
On peut ainsi accélérer les particules à chaque tour en les faisant passer dans une cavité contenant un 
champ radiofréquence. La fréquence est ajustée de telle manière que les particules rencontrent toujours 
dans la cavité un champ de même direction. Entre les zones de champ électrique, l’accélération des 
particules sur leur trajectoire circulaire fait qu’elles perdent de l’énergie par rayonnement. C’est là 
une limite sérieuse à l’efficacité de ces accélérateurs. Là encore, l’effet est beaucoup plus marqué pour 
des électrons que pour des particules lourdes. On peut le réduire en augmentant le rayon du cercle. 
C’est ainsi qu’on ne peut atteindre, au CERN, des énergies électroniques de 50 ou 100 GeV qu’au prix 
d’un anneau de 27 km de périmètre. La perte d’énergie par rayonnement, qui doit être compensée 
par les cavités accélératrices, est de quelques dizaines de MW, correspondant à quelques kW par 
mètre linéaire de faisceau. Ce rayonnement étant essentiellement émis dans le domaine des X durs, 
on comprend qu’il soit nécessaire d’enterrer profondément l’anneau. Le champ magnétique nécessaire 
pour obtenir un tel rayon est relativement modéré, de l’ordre de 1000 gauss (0.1T). Ce n’est pas du 
tout un facteur limitatif. Pour des accélérateurs à protons, en revanche, la limitation à l’énergie vient 
plus du champ magnétique nécessaire à la courbure des trajectoires que du rayonnement de freinage. 
Notons enfin que le rayonnement de freinage est beaucoup moins important dans les accélérateurs 
linéaires (parce que vitesse et accélération sont colinéaires). L’énergie est alors limitée par le champ 
électrique maximum (10MV/m) et la longueur du dispositif (1 km environ). 
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1.3 Réaction de rayonnement 


Nous avons fait l’approximation, dans tout ce chapitre, que le rayonnement ne modifiait pas le mouve- 
ment de la charge. Il est bien évident que la puissance rayonnée doit être prise sur l’énergie mécanique 
de la particule et qu’on ne peut négliger cette réaction du rayonnement sur la trajectoire qu’en première 
approximation. Nous allons tenter dans ce paragraphe de décrire la perturbation au mouvement due 
au rayonnement. Pour simplifier la discussion, nous choiïsirons de ne travailler qu'avec un électron. 
Nous verrons en effet que la réaction de rayonnement a des conséquences sur le mouvement d’autant 
plus importantes que la masse de la particule est petite. L'adaptation de ces discussions à d’autres 
particules ne présenterait aucune difficulté. Nous ne nous placerons que dans un cadre non relativiste. 
Nous allons commencer, dans une discussion qualitative, par donner quelques ordres de grandeur. 
Nous pourrons ainsi dégager une échelle naturelle de temps pour ces phénomènes. Nous montrerons 
que la perturbation est en effet petite tant que les constantes caractéristiques du mouvement sont 
longues à cette échelle. Nous montrerons ensuite que l’action du rayonnement sur l’énergie de la par- 
ticule peut se décrire comme le travail d’une force, la “force de réaction de rayonnement”. Le premier 
appendice de ce chapitre montrera comment on peut obtenir l'expression de cette force en se donnant 
un modèle naïf de particule chargée et en estimant l’action sur le mouvement de la particule du champ 
produit par la particule elle-même. Nous donnerons alors quelques applications de la force de réaction 
de rayonnement. Nous montrerons en particulier comment elle donne une durée de vie finie (et très 
brève) aux atomes dans un modèle planétaire classique. 


1.3.1 Approche qualitative 


Pour un mouvement non relativiste, on peut, dans l’expression (1.35) du vecteur de Poynting des 
champs de Liénart Wiechert, négliger les termes en v/c. On a alors: 


g nx(nxa)|? 


II = mae B à (1.36) 
En prenant l’axe Oz dans la direction de a, on voit que n x (n x a) = asin ĝuọ (avec les notations 
standard des coordonnées sphériques). L'intégration du vecteur de Poynting sur une sphère de rayon R 
ne pose alors aucune difficulté (tous les points de cette sphère “voient” manifestement la particule au 
même instant retardé et donc avec la même accélération). On met alors la puissance totale rayonnée 
par la charge sous la forme (formule de Larmor): 


ga 


ane (1.37) 

Estimons maintenant l’effet de cette puissance sur le mouvement. Considérons pour cela d’abord 
une particule initialement au repos accélérée uniformément pendant une période T. L'énergie totale 
rayonnée pendant l’accélération s’écrit alors PT. L'énergie mécanique finale de la charge est, pour sa 
part, égale à ma?T?/2. Le rayonnement aura une influence faible sur le mouvement si PT « ma?T?/2. 
On peut aussi écrire cette condition sous la forme: 


T>r, (1.38) 
avec , 
1 q 
= Miane 1.39 
4 6reo me ’ (139) 


la puissance rayonnée étant alors simplement P = mra?. Le temps caractéristique 7, qui va jouer un 
rôle essentiel dans la suite de cette discussion, est maximal pour l’électron, la plus légère des particules 
chargées. Sa valeur numérique est de 6.32 107?4 s. Notons que cr est de l’ordre du “rayon classique” 
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re de l’électron. Ce rayon est donné par un modèle électrostatique très naïf de l’électron, sous la 
forme d’une sphère uniformément chargée en surface, de rayon re et portant la charge élémentaire. 
En identifiant l’énergie électrique de cette distribution avec l’énergie de masse de l’électron, on fixe 
la valeur du rayon. La valeur obtenue est, à un coefficient près (2/3 en l’occurrence), la quantité cr. 
La très faible valeur de 7 indique que l'effet du rayonnement est tout à fait négligeable, sauf si on 
s'intéresse à des périodes d’accélération infiniment courtes. 

On peut préciser encore cette approche qualitative en considérant une particule chargée animée 
d’un mouvement sinusoïdal de fréquence wọ. L'accélération est alors de l’ordre de wĝd où d est 
l'extension du mouvement. L'énergie mécanique est pour sa part de l’ordre de mwÿd?. La puis- 
sance rayonnée pendant une période, P /wo, sera petite par rapport à l’énergie mécanique et donc le 
rayonnement sera une petite perturbation au mouvement, si: 


le a 2 52 
eo wo HORS Le 
c’est à dire si: 
es ei. (1.41) 


Là encore, cette condition est très bien vérifiée pour tout mouvement à une fréquence raisonnable. 
L'effet du rayonnement sur le mouvement est donc une faible perturbation et il est bien justifié de 
considérer, au moins sur un intervalle de temps assez bref, que le mouvement de la particule est imposé. 

Si le rayonnement ne modifie pas dramatiquement le mouvement, il n’en reste pas moins que, 
sur des temps longs, l’effet cumulatif de la puissance rayonnée finira par amortir le mouvement dont 
l'énergie mécanique sera lentement décroissante. Pour tenir compte plus commodément de cet effet, 
nous allons monter que la puissance rayonnée peut être modélisée par le travail d’une force. 


1.3.2 Force de réaction de rayonnement 


Considérons donc une particule en mouvement imposé entre les instants tı et t2. En exprimant la 
puissance rayonnée en fonction de la vitesse de la particule, on peut écrire la variation de l’énergie de 
la particule due au rayonnement pendant cette période, AE, sous la forme: 


2 t 
iec T v? dt. (1.42) 


6reo È Ju 


L'intégrale peut aisément être transformée par une intégration par parties. On a: 


t2 
a Pa | vdt fev . (1.43) 
ti 

Si la période considérée est suffisamment longue et si les vitesses et accélérations sont bornées, 
l'intégrale dans le second membre domine le terme tout intégré (à condition bien sûr qu’elle soit 
non nulle - nous excluons donc de fait le cas du mouvement uniformément accéléré). On peut donc 
écrire l’énergie AE sous la forme du travail d’une force: 


E= | Frvdt, (1.44) 
où la “force de réaction de rayonnement” F, est définie par: 
Ê, 


r= rad. = MTA . (1.45) 


Cette force, proportionnelle à la dérivée temporelle de l’accélération, est tout à fait particulière et doit 
être utilisée avec beaucoup de précautions. Elle conduit tout d’abord, évidemment, à des équations du 
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mouvement qui sont du troisième ordre par rapport au temps. Il faut donc, pour spécifier complètement 
le mouvement, donner non seulement la position et la vitesse, mais aussi l’accélération initiale de la 
particule. Un tel comportement est étranger à tous les principes de la mécanique Newtonienne. 

Un autre problème grave relatif à cette force est la présence, parmi les solutions aux équations 
du mouvement, de solutions divergentes, même pour une particule libre. Considérons en effet une 
particule initialement au repos. L’équation du mouvement s’écrit: 


MV = MTŸ , (1.46) 


dont la solution générique s’écrit: 
v= aet. (1.47) 


Si on ne spécifie pas que l’accélération de la particule est initialement nulle, l’accélération et la vitesse, 
croissent exponentiellement avec une constante de temps, T, extrêmement brève. Ces solutions sont 
complètement non physiques. 

Mentionnons enfin une dernière difficulté avec la force de réaction de rayonnement. Elle prédit une 
force nulle pour un mouvement uniformément accéléré, donc a priori une énergie rayonnée nulle. Mais, 
pour ce type de mouvement, la puissance prédite par la formule de Larmor, est non nulle. On peut, 
bien sûr, constater que nos hypothèses pour l'intégration par parties conduisant à l'expression de F, ne 
sont pas valables dans ce cas. Il faut retenir de cette discussion que la force de réaction de rayonnement 
est un intermédiaire commode pour estimer l'influence du rayonnement sur le mouvement, mais qu’elle 
doit être utilisée avec précaution, le plus souvent dans une approche perturbative. 

Dans l’appendice à ce chapitre, nous présenterons un calcul, dû à Abraham et Lorentz, qui justifie 
dans une certaine mesure la forme de la force de réaction de rayonnement. On y considère la charge 
comme une répartition étendue de densité de charge et on estime la force qu’elle exerce sur elle-même. 
Après un calcul fastidieux, on trouve une contribution proportionnelle à l’accélération, qu’on peut 
interpréter comme la masse de la particule, et la contribution de la force de réaction de rayonnement. 
Comme on le verra dans l’appendice, ce modèle présente des inconsistances graves et doit aussi être 
pris avec précautions. 


1.3.3 Application 


Nous allons utiliser, avec précautions, la force de réaction de rayonnement pour estimer la durée de 
vie des atomes dans le modèle de Rutherford (nous discuterons à nouveau ce problème en détail dans 
le chapitre sur le rayonnement des sources atomiques). La réaction de rayonnement, en réduisant 
graduellement l'énergie de l’électron en orbite autour du noyau, doit le conduire à tomber sur le 
noyau. Pour simplifier les calculs, nous considérerons un atome d’hydrogène et nous supposerons que 
les orbites sont circulaires, comparables à celles du modèle de Bohr. Nous nous servirons d’ailleurs des 
prédictions de ce modèle pour fixer les ordres de grandeur relatifs à nos orbites (en particulier celui 
de leur rayon). 

Nous supposerons que l’énergie mécanique E évolue lentement par rapport au mouvement orbital 
(nous faisons ici une approximation séculaire comparable à celles qui sont utilisées en astronomie). 
Nous noterons U(r) = U(r) = a/r le potentiel Coulombien à symétrie sphérique, avec 


g 


= —— , 1.48 
de AT Eo 


La dérivée temporelle de l’énergie mécanique est donnée par le travail de la force de réaction de 
rayonnement, ou, plus simplement encore, par la formule de Lorentz (on peut remarquer que, pour un 
mouvement périodique, le terme tout intégré dans le raisonnement conduisant à F, est identiquement 
nul à condition d’intégrer sur une période; la formule de Larmor est donc strictement équivalente au 
travail de F,). On a alors: 


z = -mræ , (1.49) 


226 CHAPITRE 1. RAYONNEMENT D'UNE PARTICULE EN MOUVEMENT 


où la barre désigne une moyenne temporelle sur une période. En remarquant que l’accélération est 
largement dominée par la force coulombienne et peut donc s’écrire: 


aAa—=-———u,, (1.50) 


on obtient finalement: 
dE Tr (dU 2 
d m (T) | 
On notera qu’on pourrait écrire une équation similaire pour le moment cinétique. On peut montrer 
rigoureusement, grâce à ces deux équations, que l’orbite de l’électron reste circulaire pendant sa chute 
sur le noyau. Cette propriété est relativement évidente, puisque la force de réaction de rayonnement 
est opposée à la vitesse et de module constant. 
Pour le mouvement Coulombien, on a, en utilisant le théorème du viriel: 


(1.51) 


12 @ 1 
a = Re 1.52 
f 2 8TE0 T (92 
dE Ê dr 
=, e 1. 
dt 8Teor? dt ? (taa) 


pour une orbite circulaire. On a aussi, toujours pour une orbite circulaire: 


CE ji 


On en déduit immédiatement que le rayon r de l’orbite doit décroître lentement en étant régi par 
l'équation: 


dr T @ 
— = —— : 1.55 
dt m 2Teor? (58) 
La résolution de cette équation est immédiate: 
3 3 3 
r°(E) — rò = (cr) —. (1.56) 


T 


Le cube du rayon de l’orbite décroît donc linéairement avec le temps. De manière évidente, le rayon 
s’annule en un temps fini: la chute de l’électron sur le noyau prend un temps fini. Au cours de 
cette chute, la fréquence orbitale et donc la fréquence du rayonnement émis croissent indéfiniment. Il 
est évident que nos approximations (faible rayonnement, mouvement non relativiste, approximation 
séculaire) tomberont avant la fin du mouvement. On peut cependant estimer l’ordre de grandeur de la 
durée de vie de l’atome d’hydrogène dans son état fondamental en prenant pour rayon initial le rayon 
de Bohr ao. On trouve alors une durée de vie: 


ph S | (1.57) 


CT 


qui est de l’ordre de 7 multiplié par le cube du rapport du rayon de Bohr au rayon classique de 
l’électron. Numériquement, T vaut environ 14 ps. Un ordre de grandeur aussi faible montre bien les 
limites d’une approche classique à la structure atomique: au bout de quelques picosecondes tous les 
atomes auraient du disparaître dans un flash de rayonnement ultraviolet... 

Notons que l’on peut, de manière plus utile, estimer à partir de ce calcul la durée de vie de l'orbite 
de Bohr de nombre quantique principal n. L'émission fait passer l’atome du niveau n au niveau n — 1. 
Le rayon de l'orbite n étant n?ao, la variation du cube du rayon dans cette transition est Gaën° (on 
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suppose que n est grand et on remplace la différence finie par une dérivée). La durée de vie de l’état 
n doit alors être de l’ordre de: à 

2 2) 5 5 

T= | —] n'&6nT. 1.58 

3 (2 ( ) 
Elle croît très rapidement avec n. Pour n = 50, par exemple, on trouve 26 ms. Ce résultat est 
extrêmement proche de la durée de vie du niveau de Rydberg circulaire n = 50. Ce niveau, de nombres 
quantiques orbital et magnétique maximums, correspond en effet de la manière la plus proche possible 
à l'orbite circulaire de Bohr. Comme tous les nombres quantiques mis en jeu sont élevés, le principe 
de correspondance nous indique en effet que le calcul classique et le calcul quantique doivent être en 
très bon accord. 


1.4 Rayonnement du dipôle 


Nous allons consacrer cette section à l'étude, au moyen des potentiels de Liénard-Wiechert, d’un cas 
particulier important: le rayonnement d’une charge oscillant de manière harmonique au voisinage de 
l’origine. Au prix d’une approximation simple, valable quand l’extension du mouvement est très petite 
par rapport à la longueur d’onde rayonnée, nous verrons qu’il est possible de calculer explicitement les 
champs. Ce rayonnement dipolaire se retrouve dans de nombreux domaines. Comme nous le verrons 
à la fin de cette partie, le rayonnement des sources atomiques entre en général dans le cadre de cette 
approximation. Tous les problèmes d'émission ou de diffusion de rayonnement par des atomes ou des 
assemblées d’atomes se ramènent donc à un problème de rayonnement dipolaire. De plus, comme nous 
le verrons dans le prochain chapitre, ce rayonnement est le premier terme d’un développement (dit 
“multipolaire”) valable pour une répartition quelconque de courants. Nous consacrerons la première 
partie de ce paragraphe à adapter simplement les résultats des paragraphes précédents à ce cas simple: 
calculs des potentiels, des champs rayonnés, du diagramme de rayonnement et de la puissance totale 
rayonnée. Dans la deuxième partie, nous exploiterons la très grande simplicité de cette source pour 
calculer les champs exacts. Nous conserverons donc tous les termes en 1/R” et montrerons comment 
on passe des champs statiques aux champs rayonnés quand on s'éloigne de la source. 


1.4.1 Champs rayonnés 


Nous considérons donc une charge ponctuelle animée d’un mouvement harmonique non relativiste 
autour de l’origine O. Nous choisirons un mouvement linéaire le long de l’axe Oz. Un mouvement 
harmonique plus complexe peut en effet toujours être décrit comme la superposition de trois mouve- 
ments harmoniques selon les trois directions de l’espace. Dans le cadre des approximations que nous 
ferons, le champ correspondant est simplement la somme des champs créés indépendamment par ces 
trois mouvements. 

La position de la particule à l’instant t’ est donc: 


rolt) = zou,e ™" (1.59) 


et sa vitesse | 
v(t) = —izwu,e “* . (1.60) 


Nous supposerons la vitesse très petite devant c et ne garderons que les termes dominants dans un 
développement en puissances de v/c. En particulier, le facteur cinématique 1/g/ qui est si important 
pour les particules relativistes sera simplement pris égal à 1. On peut s’interroger sur l’appellation 
dipôle pour une charge oscillante unique. Un vrai dipôle oscillant serait constitué de cette charge 
oscillante et d’une charge opposée fixe à l’origine. La charge fixe ne crée qu’un champ électrostatique. 
Comme nous ne nous intéressons qu’au champ rayonné à grande distance à la fréquence w, cette 
contribution électrostatique ne joue aucun rôle. Seule la charge mobile importe pour le rayonnement. 
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Notons également que nous devrons, en toute rigueur, appeler cette source un dipôle électrique. Nous 
verrons en effet dans le prochain chapitre qu’il existe un autre type de source dipolaire, le dipôle 
magnétique, essentiellement équivalent à une petite boucle de courant oscillant. 

L’approximation essentielle que nous ferons (approximation dipolaire) consiste à négliger l’exten- 
sion spatiale du mouvement de la particule, z0, par rapport à toutes les grandeurs caractéristiques 
du problème. Elle est tout d’abord négligeable par rapport à la distance d'observation et on écrira 
simplement 1/R = 1/r (r est le module de r, distance de l’origine au point d'observation). Nous 
supposerons aussi que le temps retardé varie peu devant la période d’oscillation d’une extrémité de la 
trajectoire à l’autre. En d’autre termes, nous supposerons 


z 1 
ie (1.61) 
C Ww 
ou encore 
20 EX, (1.62) 


où À = 2rc/w est la longueur d’onde, dans le vide, d’une onde plane de fréquence w. Notons que cette 
condition s'écrit aussi vo € c. Nous pourrons alors écrire simplement: 


to =t— À (1.63) 
to est alors simplement retardé d’une quantité constante par rapport à l’instant d'observation. Nous 
écrivons ainsi le premier terme d’un développement de tọ en puissances de r0/À. Notons que cette 
approximation dipolaire est, par exemple, tout à fait légitime pour le rayonnement atomique. Les 
longueurs d’onde caractéristiques sont en effet de l’ordre du micron alors que l’extension des mouve- 
ments électroniques, comparable au rayon de Bohr, est plutôt de l’ordre de Ångström. 


Potentiels 


Avec ces approximations, l'écriture des potentiels de Liénard ne pose aucune difficulté. Pour le po- 
tentiel vecteur, on a: 


+ ikr 
i 1 
A= E : (1.64) 


où l’on a utilisé l’amplitude j du courant créé par la particule: 


je wi = que tt = _igzowe **, (1.65) 


Pour le potentiel scalaire: 
Re (1.66) 
- 4rérl-n-v/c° ' 
Nous allons effectuer un développement de ces potentiels au premier ordre non trivial et non nul en 


v/c, en utilisant pour toutes les quantités retardées le seul instant tọ. On peut donc écrire: 


1 


Le premier ordre non nul pour le potentiel scalaire correspond au potentiel électrostatique q/4reor. 
Comme nous n’avons considéré qu’une charge ponctuelle, il est normal qu’on trouve effectivement à 
l’ordre le plus bas un potentiel électrostatique. Toutefois, il ne contribue pas à la propagation et au 
rayonnement et nous pouvons l’oublier (on pourrait aussi ajouter une charge —q immobile à l’origine, 
ce qui constituerait une description plus réaliste d’un dipôle). 
En remarquant que 
n-v/c= ru, -u , (1.68) 
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et que u; : Up = cos en coordonnées sphériques, on peut écrire les potentiels au premier ordre 
significatif: 
+ ikr F 
A= De tu, (1.69) 
d w etlkr—ot) 
V = —i — cos 0 . (1.70) 


ÂTEo C r 


Dans l'expression de V, nous avons fait intervenir l’amplitude du dipôle associé à la charge: 
d= ij/w = qzo . (1.71) 


On peut vérifier par un calcul élémentaire que V et A vérifient bien la jauge de Lorentz (les potentiels de 
Liénard Wiechert complets y obéissent. Ce doit donc être vrai à tous les ordres dans le développement 
en v/c). 

Notons que nous aurions pu pousser le développement un terme plus loin en puissances de v/c. 
En fait, sauf pour vérifier la consistance de la jauge, il n’est pas nécessaire de calculer le potentiel 
scalaire au second ordre. Comme nous le verrons dans un moment, le champ magnétique se calcule 
directement à partir du potentiel vecteur et le champ électrique s’en déduit en utilisant les équations 
de Maxwell ou, plus simplement, la structure locale d’onde plane à très grande distance. Le terme 
dď’ordre 2 dans le potentiel vecteur s'écrit, après quelques transformations: 


2 42 e2i(kr—wt) 
AU) = EUR RE $ (1.72) 
r 


Il s’agit d’un terme oscillant à la fréquence 2w (c’est un terme en v?), possédant une structure 
géométrique plus complexe que le potentiel vecteur du dipôle. Nous examinerons plus tard, par 
la technique systématique des développements multipolaires, le champ créé par une charge oscillante à 
cet ordre. Nous verrons qu’il existe effectivement un champ quadripolaire électrique à cette fréquence 
et nous retrouverons, par une autre méthode, lexpression ci-dessus. 


Champs rayonnés 


Les champs rayonnés s’expriment également sans difficultés. On pourrait calculer le champ électrique 
à partir de A et de V. Le calcul ne présente aucune difficulté. Toutefois, si ne nous intéressons 
qu'aux champs rayonnés à grande distance, il est beaucoup plus économique de revenir directement 
aux champ de Liénard. A l’ordre d’approximation où nous travaillons: 


q 1 
_ -nx(nxa 1.73 
AT Ep? r ( ) > ( ) 
où l’accélération a s’écrit simplement: 
= 2 —iwt 
a = —zow e "u; . (1.74) 


Le champ électrique s'exprime plus naturellement en termes du dipôle électrique. On a 


d ekr 
E — ar ge À X (n X u,) (1.75) 


En utilisant les vecteurs unitaires du trièdre local en coordonnées sphériques, on trouve rapidement 
que: 


nxu, = -—sinĝlug (1.76) 


nx(nxu;) = sinugo, 1.77) 
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et finalement ne 
d RT 7 
E=- T ee A sin Ou . (1.78) 


L’onde rayonnée ayant toujours localement la structure d’une onde plane de vecteur d’onde k = kn, 
on en déduit 


d w? etk" 


—iwt 
a de e™™ sinôu, . (1.79) 


La géométrie des champs est relativement intuitive. La répartition de courant produite par la 
charge est en effet à symétrie cylindrique autour de l’axe Oz. Le champ magnétique respecte cette 
symétrie (les lignes de champ sont des cercles d’axe Oz). Quand au champ électrique, il est dans 
le plan défini par le dipôle et le point d’observation. Notons enfin que les champs sont nuls dans la 
direction du dipôle, Oz. Nous discuterons dans un moment quelques conséquences physiques de cet 
effet non-relativiste (le rayonnement n’est pas du tout concentré dans la direction de la vitesse de la 
particule). 


Vecteur de Poynting 


À partir des champs, nous pouvons facilement calculer le vecteur de Poynting: 


E x B 
Te (1.80) 
Ho 


Il faut prendre garde aux notations complexes quand on manipule des quantités énergétiques, quadra- 
tiques dans les champs. Une substitution directe et maladroite des expressions précédentes pourrait 
faire croire que IT est une fonction purement oscillante à 2w. Il faut, en fait, soit revenir aux parties 
réelles des champs pour exprimer la valeur instantanée de II, soit ne s'intéresser qu’à la moyenne 
temporelle II de II sur une période optique (ou sur un intervalle de temps long par rapport à cette 
période). En effet, cette moyenne temporelle s’écrit simplement en termes des amplitudes complexes 
des champs. En posant: 


E = Epe ™* (1.81) 
B = Boe “*, (1.82) 
les champs réels s’écrivent 
1 ; , 
E = z Eo + Eğe“) (1.83) 
1 , , 
B = z (Boe "+ Bõe”) . (1.84) 


(ES désignant le complexe conjugué de Eo). Le vecteur de Poynting contient alors des termes oscillants 
à 2w dont la moyenne temporelle est évidemment nulle et des termes constants, qui contribuent seuls 
à cette moyenne. On a finalement: 


— 1 1 
II = — [Eo x Bý + Eù x Bo] = —Re(Eo x Bọ). (1.85) 
4uo 2/10 
On notera que ce type d’expression peut être utilisé pour toute quantité quadratique (densités d’éner- 
gie...). 
En appliquant cette formule nous trouvons donc: 


d wt sin? 0 


Moc = 
32r?c0 © r2 


u, . (1.86) 
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Figure 1.3: Diagramme de rayonnement d’un dipôle électrique aligné avec l’axe Oz. On note que le rayonnement est 
nul sur l’axe du dipôle. 


Comme prévu, IT est colinéaire à u, et de même sens. Il décrit bien un flux d’énergie du dipôle vers 
linfini. On peut visualiser la répartition spatiale du flux énergétique en traçant le diagramme de 
rayonnement. Dans la direction définie par les angles 0 et d des coordonnées sphériques, on porte 
une longueur proportionnelle à IT. Le diagramme ainsi obtenu est de révolution autour de Oz. Il est 
représenté sur la figure 1.3. La section de cette surface par un plan passant par Oz est constituée 
de deux lobes symétriques d’équation polaire p = K sin? 9. La propriété essentielle de ce diagramme 
est que la puissance rayonnée est nulle dans la direction du mouvement, maximale dans une direction 
perpendiculaire. 


De nombreux phénomènes physiques sont associés à ce diagramme de rayonnement. Une antenne 
dipolaire électrique (un fil rectiligne parcouru par un courant oscillant — nous montrerons dans le 
prochain chapitre l’équivalence avec le système traité ici) ne rayonne que dans un plan perpendiculaire 
à son axe. Elle doit donc être orientée verticalement pour une communication terrestre. De manière 
réciproque, une antenne linéaire ne capte correctement le rayonnement que si elle est perpendiculaire à 
la direction de propagation et parallèle à la polarisation (une expérience quotidienne avec les antennes 
de télévision, réseau d’antennes linéaires). Nous verrons qu’une petite particule ou un atome éclairé 
par une onde plane possède un dipôle induit parallèle à la direction de polarisation. Il diffuse donc 
préférentiellement le rayonnement dans une direction perpendiculaire à sa polarisation. Ce phénomène 
est à l’origine de la polarisation de la lumière diffusée par l’atmosphère. Les ondes incidentes de 
polarisation perpendiculaire au plan défini par la direction d’observation et la direction du soleil 
contribuent principalement à la lumière diffusée. La lumière observée dans une direction est donc 
partiellement polarisée. Quand la lumière subit des diffusion multiples (par temps de brouillard par 
exemple), cet effet de polarisation est brouillé et la lumière diffusée a une polarisation naturelle. 
On peut observer facilement la direction préférentielle de diffusion, dans une expérience de cours, en 
observant la diffusion d’une lumière polarisée par une solution saturée de glucose. Comme elle possède 
un important pouvoir rotatoire, la polarisation linéaire de l’onde incidente tourne, avec une période 
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spatiale de quelques centimètres. On observe alors, à angle droit avec la direction incidente, que la 
diffusion est pratiquement nulle quand la polarisation pointe vers l’observateur, maximale dans le cas 
contraire. 


Puissance totale rayonnée 


On obtient la moyenne temporelle de la puissance rayonnée par le dipôle, P, en intégrant le vecteur 
de Poynting moyen sur une sphère de rayon r. IT étant en 1/r?, la dépendance en r disparaît et la 
puissance rayonnée est indépendante du rayon de cette sphère. L'intégrale sur l’angle @ est triviale et 
on obtient immédiatement: 


= D I: sin” 0 d0 (1.87) 
On vérifiera que 
ins 9 d0 = €. (1.88) 
0 3 
On a donc enfin: Re 
= re à (1.89) 


Cette formule nous sera très utile dans la suite de ce cours. De manière naturelle, la puissance rayonnée 
est proportionnelle au carré de l’amplitude du dipôle. Elle est également proportionnelle à la quatrième 
puissance de la fréquence. A dipôle égal, les hautes fréquences sont rayonnées de façon beaucoup plus 
efficace que les basses. On connaît bien ce phénomène en acoustique: les hauts-parleurs sont d'autant 
plus petits, pour une puissance restituée égale, que leur fréquence optimale d'utilisation est élevée. 
Dans le domaine optique, ce comportement est responsable de la couleur bleue de la lumière diffusée si 
la lumière incidente est blanche. C’est par exemple ce qui explique le bleu du ciel. Les molécules d’air 
ont des fréquences de résonance très hautes par rapport aux fréquences visibles. Elles répondent donc 
de la même manière à toutes les fréquences visibles, par des dipôles comparables. En revanche, les 
fréquences les plus élevées dominent largement dans le spectre de la lumière diffusée. Par un simple 
effet de complémentarité, le rouge domine dans le spectre de la lumière transmise. Voici pourquoi le 
ciel est bleu ? et les couchers de soleil rouges. 

La puissance rayonnée doit provenir d’une source d'énergie. On pourrait envisager que la particule 
soit mise en mouvement par des sources externes, éventuellement non électromagnétiques. L'énergie 
rayonnée peut aussi provenir de l’énergie mécanique de la particule (élastiquement liée à un centre 
de force). Dans ce cas, cette énergie mécanique décroît au cours du temps sous l’action de la force 
de réaction de rayonnement. Cette force, proportionnelle à la dérivée troisième de la position est, 
pour un mouvement pratiquement sinusoïdal, proportionnelle au cube de la fréquence. La puissance 
de cette force varie donc comme la quatrième puissance de la fréquence, ce qui est bien ce que nous 
venons de déterminer par un autre moyen. 


1.4.2 Champs à une distance arbitraire 


Le problème que nous nous sommes posé ici est suffisamment simple pour que nous puissions entrepren- 
dre de calculer exactement le champ produit à une distance arbitraire. Nous pourrons ainsi calculer le 
champ proche du dipôle et montrer comment on passe d’une solution essentiellement électrostatique 
à courte distance aux champ rayonnés du paragraphe précédent. Nous partirons du potentiel vecteur 
décrit par l’équation (1.69). La seule approximation effectuée à ce niveau est en effet l’approximation 
dipolaire négligeant l’extension du mouvement par rapport à la longueur d’onde rayonnée. En revanche 

?L’explication complète du bleu du ciel est un peu plus complexe. Si l’atmosphère était parfaitement homogène, elle 
se comporterait comme un milieu d’indice constant et il n’y aurait pas de diffusion. Le ciel serait noir (et triste). Les 


fluctuations thermodynamiques de densité sont responsables d’inhomogénéités d’indice à l’échelle de la longueur d’onde 
incidente et de l’existence d’une diffusion. 
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les champs de l’équation (1.78,1.79) ne sont que les premiers termes d’un développement en puissances 
de 1/r des vrais champs. Nous allons rétablir intégralement ce développement. Nous commencerons 
par établir l’expression du champ magnétique, rotationnel du potentiel vecteur. Nous en déduirons 
ensuite le champ électrique, directement à partir de l’équation de Maxwell-Ampère. Nous éviterons 
ainsi d’avoir à expliciter le potentiel scalaire, qui est important dans la zone des champs proches. 


Champ Magnétique 


Nous partons de 
ikr 


B= V x A = Deity x u, . (1.90) 
AT r 
Une formule standard d’analyse vectorielle donne: 
eikr eikr 
V x “.-v( jrs. (1.91) 
r r 


le rotationnel de u, étant manifestement nul. Le gradient étant celui d’une fonction à symétrie 
sphérique, il s'exprime simplement: 


etk" rlik 1 
Ve u,e” É — b : (1.92) 
En remarquant que u, x u, = —sin@u,, on a finalement le champ magnétique sous la forme: 
i ustai lik 1 
B= 2 Hd É — >| sin Ou, . (1.93) 
T r r 


Notons que la partie en 1/r de ce champ, dominante à grande distance, coïncide, à des réécritures près, 
avec (1.79). Notons également que le terme de champ proche, en 1/r? ici, n’affecte pas les propriétés 
de symétrie du champ dont les lignes restent des cercles d’axe Oz. 


Champ Electrique 


Plutôt que d'écrire l’expression du potentiel scalaire, par exemple par la jauge de Lorentz, pour 
la dériver ensuite, nous allons utiliser l’équation de Maxwell-Ampère qui s'écrit, pour des champs 


harmoniques: 
ic? 
E= —V xB. (1.94) 
w 


Il est plus naturel d'exprimer le champ électrique en termes de l’amplitude du dipôle d = gzo. Après 
une simple réécriture, on a: 


d E etk" 
E= aneo VXxV»%x F uz > (1.95) 
Le double rotationnel se développe en: 
eikr er eikr 
VXxV x uv (v. Tur) - Eu (1.96) 


Le laplacien du second membre est particulièrement simple. u, étant constant, il se ramène à: 


ikr ikr 2 ikr 2 
1 d kê; 
A— ü; = WA — — raa (2 | uz; = mu, $ (1.97) 
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En utilisant enfin la décomposition de u, sur le trièdre local (u; = — sin Vus + cos ĝu, ), on a: 
ikr k2 : k2 | 
AS u, = + sin 0—e*" ug — cos 0—e*"u, (1.98) 
r r r 


Revenons maintenant au premier terme du membre de gauche de (1.96). u, étant constant, il sort de 
la divergence et nous pouvons écrire: 


eikr etk 
V (v u.) =V (v 7 us) . (1.99) 


Le gradient d’un produit scalaire peut aussi se développer par une formule d’analyse vectorielle stan- 
dard. En utilisant encore une fois le fait que u, est une constante, et que ses dérivées sont nulles, ainsi 
que le fait que le rotationnel d’un gradient est identiquement nul, on a: 


etk" etk" 
viv. u, | = (u: V)V ; (1.100) 
r r 
avec (uz : V) = cos 08/ðr — (sin0/r)0/06, et en exprimant le gradient on obtient enfin: 
ikr ! 2 9 2 | i 1 
viv. $ u, | = cos Ou,e" a J H= sin fuge’*”" É — 3) : (1.101) 
r r r2 yè r? r3 


En regroupant finalement ce terme avec celui provenant du laplacien on a le champ à toute distance 
sous la forme: 


E = _d_ eut eikr —2u, cos 0 É — 5 — ug sin 0 a + a : (1.102) 
4ATEo r? rè r 


Nous avons donc bien exprimé le champ électrique comme un développement en puissances successives 
de kr ou de r/À. Le terme en 1/r dominant à grande distance coïncide, là encore, avec le champ rayonné 
donné par (1.78). La symétrie du champ électrique n’est pas modifiée par les termes de champ proche 
et E reste dans le plan défini par la direction du dipôle et la direction d'observation. Notons enfin que 
la partie du champ en 1/r?, importante dans la région intermédiaire, est en quadrature avec les champs 
en 1/r et 1/r°. Cette propriété a une certaine importance dans les raisonnements énergétiques. 
L'expression de E en termes des vecteurs de base du trièdre local est sans doute la plus commode. 
Notons pour mémoire qu’on peut donner une expression complètement vectorielle de E sous la forme: 


d —iwt ikr k? ik 1 
E = —e "e — (ur x uz) xX ur — | -5 — -3 ) (ur x (u, x uz) +2u,)} . (1.103) 
TE r r 
Cette forme a le mérite essentiel de bien faire ressortir la contribution rayonnée, mise ici sous la forme 
entièrement vectorielle résultant directement des champs de Liénard. 


Discussion 


Trois régions importantes de l’espace apparaissent dans l'équation (1.102). La région des champ 
rayonnés correspond à kr > 1 et nous l’avons déjà étudiée en détails. La région kr « 1 est dite région 
du champ proche. Le champ électrique y est dominé par des termes en 1/r°. Il peut s’écrire: 

d 2 cos 0 sin 0 


E= ne : 1.104 
47e r3 Uret r3 uo ( ) 


On reconnaît, à un facteur oscillant e “t près, expression du champ électrique du dipôle électro- 
statique. Nous sommes effectivement à une distance courte devant la longueur d’onde rayonnée: la 


propagation ne joue pas de rôle et le champ électrique suit immédiatement sa source. 
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Ce champ “électrostatique” proche joue un rôle important dans de nombreux domaines. Il est par 
exemple responsable des forces de “van der Waals” entre molécules d’un gaz, responsables en partie des 
écarts à la loi des gaz parfaits. Les molécules sont en effet de petits dipôles électrostatiques fluctuant à 
des fréquences optiques. Les distances moyennes entre particules dans un gaz de densité normale étant 
très inférieures aux longueurs d’onde optiques, l'interaction entre ces petits dipôles peut se calculer en 
utilisant ces formules de champ proche. Il serait hors de propos de donner ici une interprétation plus 
détaillée des forces de van der Waals, qui ne peuvent se comprendre correctement que dans un cadre 
quantique (on notera par exemple que l’image d’un dipôle fluctuant ne peut tenir pour une molécule 
dans son état fondamental: ce dipôle devrait rayonner, ce qui rendrait l’état fondamental instable). 

La troisième région de l’espace est celle des champs “intermédiaires”, kr ~ 1. Tous les termes du 
champ électrique sont alors d'importance comparable. La complexité du champ est telle que nous ne 
décrirons pas plus en détail ses propriétés. 
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Chapitre 2 


Développement multipolaire du champ 
rayonné 


Nous nous intéresserons dans ce chapitre à un type de sources qui généralise le dipôle introduit au 
chapitre précédent. Nous considérerons une répartition de courants quelconques, oscillant de façon 
harmonique, localisés au voisinage de l’origine. Les courants seront imposés, comme le mouvement 
des charges dans le chapitre précédent. Le problème ainsi posé est bien sûr trop général. Nous 
chercherons donc seulement à déterminer les champs rayonnés à une distance très grande par rapport 
à la longueur d’onde et à l’extension spatiale de la répartition de courants. Nous ne nous restreindrons 
pas en revanche à des répartitions de courant localisées sur une étendue faible par rapport à la longueur 
d'onde. Nous procéderons à un développement en puissances de l’extension de la source par rapport à À 
(longueur d’onde rayonnée). Nous identifierons physiquement les différents termes de ce développement 
et constaterons que le terme dominant n’est autre que le champ du dipôle électrique. Nous préciserons 
à chaque fois les caractéristiques du rayonnement et, en particulier, le diagramme d'émission. Nous 
conclurons ce chapitre en présentant quelques applications de ces développements multipolaires. Nous 
reviendrons en particulier sur le rayonnement d’une charge animée d’un mouvement sinusoïdal non 
relativiste. Nous pourrons calculer les corrections au rayonnement dipolaire dues à l’extension finie de 
la trajectoire. Nous nous pencherons ensuite sur le problème, plus important en pratique, des antennes. 
Nous discuterons deux types d'antennes couramment répandues. Nous dégagerons en particulier la 
notion importante d’impédance de rayonnement. 


2.1 Développement multipolaire du potentiel vecteur 


2.1.1 Notations 


La position du problème et les notations sont résumées sur la figure 2.1. Nous cherchons le champ 
rayonné en un point r à l'instant t par une répartition de courant située au voisinage de l’origine, 
dans une région d’extension caractéristique ro (on prendra garde à quelques changements de notation 
par rapport au paragraphe précédent). Le courant au point source r’ à l’instant #/ est j(r',t') = 
jo(r’)exp(—iwt'). jo désigne donc l’amplitude complexe de la densité de courant. Notons encore une 
fois que, si nous nous limitons ici à des courants harmoniques, le cas général peut être traité en utilisant 
transformation de Fourier et principe de superposition. 

La répartition de courants est nécessairement, par la conservation de la charge, accompagnée d’une 
densité de charges, elle aussi oscillante à la fréquence w: p(r',t') = polr’) exp(—iwt'). En écrivant 
l’équation de continuité: 


V:-j+—=0 (2.1) 
où les dérivations spatiales s'entendent par rapport à r’ et en y portant la dépendance harmonique en 
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jet) 


Figure 2.1: Rayonnement multipolaire: notations 


temps, on trouve: 
iw Po =V - jo . (2.2) 


Nous utiliserons donc indifféremment la densité de courant et la densité de charge pour caractériser 
la source. 
Il y a dans ce problème trois échelles naturelles de longueur: 


e La distance r entre la répartition de courant et le point d'observation. 
e La longueur d’onde À = 2rc/w du rayonnement 
e L’extension spatiale ro de la répartition de courant. 


Nous nous placerons uniquement dans le cas où la distance d’observation est très grande, à la fois par 
rapport à la longueur d’onde et par rapport à l’extension de la source: 


r © À, ro F (2.3) 


En fait, nous calculerons le potentiel comme un développement limité en puissances de r/À et nous ne 
garderons que les termes dominants, en 1/r. Nous suivons en cela la démarche du chapitre précédent. 
Nous ne supposerons pas en revanche, comme pour le dipôle, que ro & À. Nous effectuerons plutôt un 
développement limité en puissances de ro/À, dont nous garderons tous les ordres ! (le développement 
multipolaire proprement dit). Nous identifierons ensuite les contenus physiques de ces différents ordres. 
Pour des raison évidentes, nous nous cantonnerons aux termes des premier et second ordres pour cette 
analyse détaillée. 


ILe problème du rayon de convergence d’un tel développement en série se pose bien sûr. En fait, ce développement 
est toujours convergent puisqu'il s’agit, comme nous le verrons, du simple développement d’une exponentielle 
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2.1.2 Potentiel vecteur 


L'expression du potentiel vecteur s’obtient tout naturellement à partir de la solution en termes de 
potentiels retardés: 


ew(t— r—r’|/c) 
Afrt) = nf DENT EE* NE 7 dr! 
po i jo(r Jetklr- r'| A 
= Meier f Po dr, (2.4) 


en posant encore k = w/c. Cette expression est, jusqu'ici, exacte pour une répartition de courant 
harmonique (rappelons que cette expression était, pour une dépendance temporelle quelconque, notre 
point de départ pour l'établissement des potentiels de Liénard). 

Suivant notre programme, nous commençons par un développement limité en puissances de 1/r 
dont nous ne garderons que les termes dominants. La dépendance en |r — r'| intervient dans le facteur 
d'amplitude (en 1/r) et dans la phase due au temps retardé. Clairement, la dépendance en phase est 
beaucoup plus critique: il suffit que |r — r'| varie de À pour que le terme de phase change beaucoup. 
Si nous nous contentons de garder l’ordre 1 en r//r dans la phase, il est cohérent de ne garder que 
l’ordre 0 pour l’amplitude et d'écrire |r — r'| = r (Nous laisserons le soin au lecteur, à titre d’exercice, 
de vérifier la cohérence de ce développement). Le terme de phase peut s’écrire au premier ordre: 


12 1 
| , r r-r 
ikļr — r'| = ikr] 1 - — - 2— 
r ï 


= ikr —iku,-r, (2.5) 


où up est le vecteur unitaire de la direction d’observation. En reportant ces deux développements 
dans l'expression du potentiel vecteur, on trouve: 

uo eilkr—wt) 
Ar r 


fie Ne —iku,-r’ dr 1 f (2.6) 


Comme nous pouvions nous y attendre, la dépendance en r du potentiel vecteur est essentiellement 
celle d’une onde sphérique. La complexité de la source est complètement contenue dans l'intégrale. Si 
cette intégrale ne porte que sur le point source r’, le point d'observation y intervient par le vecteur 
ur. 

Nous allons maintenant développer cette intégrale en puissances de l’extension de la source ro 
comparée à la longueur d’onde rayonnée À. En raison de la densité de courant, l’intégrale ne porte que 
sur une région de l’espace d’extension ro. Dans cette région finie, on peut développer l’exponentielle 
en: 

(—iku, : r’)? 
2! 
Notons que ce développement en série a un rayon de convergence infini. L’écrire ne présuppose en rien 
que l’extension de la source soit petite devant À. En revanche, la convergence ne sera suffisamment 
rapide pour que le développement soit utile que si cette extension n’est pas trop grande. Nous écrirons 

donc enfin: 


EU 1 fut + (2.7) 


A= 5 A, , (2.8) 
=0 


avec 
Lo ertkr-wt) (—ik)? 
P Ar r p! 


J NPr. (2.9) 


Nous appellerons développement multipolaire du potentiel vecteur cette expression. Nous allons en 
effet voir dans les paragraphes suivants, en examinant les termes successifs, qu’ils correspondent à des 
géométries de sources dipolaires, quadripolaires etc.. 
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2.2 Termes multipolaires 


Nous allons maintenant examiner les termes d’ordres successifs dans le développement (2.9). Si l’ex- 
tension de la source n’est pas très grande devant À, les premiers termes doivent dominer le potentiel. 
Pour des raisons évidentes de taille des calculs, nous nous limiterons en fait aux termes d’ordre 
zéro et un. On peut traiter de manière systématique les termes d’ordre arbitraire en les reliant aux 
propriétés des harmoniques sphériques. Cette méthode très puissante, bien adaptée à l’utilisation des 
propriétés de symétrie de la source, est exposée en détails dans le Jackson. L’exposer ici nous conduirait 
à une digression mathématique trop longue. De plus, l’essentiel des idées physiques est contenu 
dans la méthode que nous présentons. Pour chaque terme, nous calculerons séparément les champs 
électrique et magnétique rayonnés. Les théorèmes de superposition nous permettront de trouver les 
champs rayonnés par des sources quelconques. En revanche, les considérations énergétiques que nous 
pourrons faire pour des termes séparés, y compris l’établissement du diagramme de rayonnement, ne 
tiendront que si ces termes sont dominants (il n’y a pas de principe de superposition pour ces quantités 
quadratiques). Comme nous nous sommes placés dès l’abord dans le domaine des champs rayonnés, 
nous pourrons obtenir les champs à partir des potentiels en utilisant la structure locale d'onde plane 
de londe rayonnée. En fait, nous raisonnerons aussi souvent par analogie en montrant qu’il existe des 
liens très forts entre la géométrie des champs correspondant à différents termes. 


2.2.1 Ordre 0: Dipôle électrique 


Le terme d’ordre zéro du développement s’écrit simplement: 


i(kr—wt) 
s= J jo) dr. (2.10) 
A cet ordre d’approximation, tout se passe comme si on avait un courant oscillant complètement 
localisé à l’origine, ayant comme valeur l’intégrale de volume du courant de la répartition initiale. 
Nous allons montrer, par quelques transformations algébriques simples de l’intégrale, qu’on retrouve 
en fait le potentiel vecteur produit par un dipôle électrique oscillant, modélisé, comme au chapitre 
précédent, par une charge oscillante. 
Considérons donc la composante selon uy de l’intégrale. Elle peut s’écrire: 


fe J E dr” = À Va: jo(r') dr (2.11) 
où le gradient s’entend par rapport à r’. Une intégration par parties donne alors: 
= -f z'(V - jo) dr! = -f x'(iwpo) dr’ (2.12) 


où nous avons cette fois utilisé l’équation de conservation de la charge pour faire intervenir la densité 
de charge. Iņ apparaît donc comme la composante selon u, d’un vecteur —iwdọ avec: 


4E J r'po(r') dr’ . (2.13) 


Pour une densité de charges statique, nous reconnaîtrions ici l'expression du moment dipolaire électri- 
que. Pour notre répartition oscillant de façon harmonique, do est évidemment l'amplitude complexe 
du moment dipolaire électrique. 

On a donc: 
Lo etl(kr—ut) 
Ar r 


Ao (—iw)do (2.14) 


On reconnaît ici lexpression du potentiel de la charge oscillante 1.69 (on prendra garde de remplacer 
dans l'expression présente le dipôle dọ par celui de la charge oscillante qau, pour comparer ces deux 
expressions). 
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Le terme d’ordre zéro du développement multipolaire correspond donc au dipôle électrique, pour 
lequel nous avons déjà calculé en détails les champs? et la puissance rayonnés. Nous ne discuterons pas 
à nouveau de ces termes. En général, une source possède un dipôle électrique non nul. Si l’extension 
est petite devant À, ou même de l’ordre de À comme nous le verrons dans les paragraphes suivants, 
ce terme domine. La grande majorité des sources se comportent comme des dipôles, ce qui justifie 
largement la place que nous avons accordée au traitement de ce problème. Ce n’est que pour des 
sources de grande extension ou pour celles qui, souvent pour des raisons de symétrie, ont un dipôle 
électrique strictement nul que les termes suivants, que nous allons discuter maintenant, jouent un rôle. 


2.2.2 Ordre 1: Dipôle magnétique, Quadripôle électrique 


Quand le dipôle électrique d’une distribution est nul, le terme d’ordre 1 domine. Le potentiel vecteur 
correspondant s'écrit: 
) 

= — ————(—ik ur -r’)jo(r”) dr . 2.15 

EOE (ik) | (ue ot’) (2.15) 
La transformation de cette intégrale en quelque chose de manipulable n’est pas aisée sous cette forme. 
Dans le produit d’un vecteur par un produit scalaire, on reconnaît un des termes du développement 
d’un double produit vectoriel. Nous pouvons effectivement transformer l’intégrande pour faire ap- 
paraître ce produit vectoriel, au prix de termes soustractifs supplémentaires. Nous écrirons pour 
cela: 


[(u 5 r’)jo F (u, -jo)r'] . (2.16) 


La première ligne de ce développement, a priori très artificiel, est alors un double produit vectoriel. 
Nous allons voir, en discutant chacun des termes associés à chacune des lignes de (2.16), que cette 
séparation correspond à deux types de sources de propriétés physiques différentes, intervenant au 
même ordre dans le développement multipolaire: le dipôle magnétique et le quadripôle électrique. 
Nous écrirons donc le potentiel vecteur à l’ordre 1 comme: 


A =AŸT+AT, (2.17) 
où AŸ correspond à la première ligne de (2.16) alors que AT correspond à la deuxième 


Dipôle magnétique 
On a donc: 


AT r 


1 
Aam PE (ik) Í Zur x (jo x r’) dr’. (2:18) 


Nous poserons donc (en remarquant que u, sort de l’intégrale sur r’): 
1 ! e ! 3. 
Mo = 5)" X jo(r )d°r . (2.19) 


Pour une répartition de courants statiques, Mo représenterait le dipôle magnétique de la répartition. 
L'expression ci-dessus généralise simplement cette définition à l’amplitude complexe d’un dipôle 


2On prendra garde que l'expression des champs à courte distance, que nous avions établie dans le chapitre précédent, 
n’est pas nécessairement valable dans le cas présent, l’extension de la source pouvant ne pas être négligeable devant À. 

#Cette définition généralise, en magnétostatique élémentaire, la définition du moment magnétique pour un circuit 
filiforme M = IS. On remarquera en effet que l'intégrale de contour de r x dr/2 n’est autre que le vecteur surface défini 
par ce contour. 
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magnétique oscillant. Si une charge oscillant le long de l’axe Oz modélise un dipôle électrique, une 
répartition dipolaire magnétique correspondrait plutôt à une petite boucle de courant oscillant (per- 
pendiculaire à l’axe portant Mo). Cette identification donne un sens physique à notre séparation a 
priori artificielle du potentiel vecteur à l’ordre 1. 

On peut écrire avec ces définitions: 


uo etlkr—ut) 
A = L iku, x Mo. (2.20) 
1 r 0 
AT r 
Pour simplifier les écritures, et sans restreindre la généralité du raisonnement, nous pouvons supposer 
Mo aligné avec Oz. Nous aurons alors simplement: 


Lo etlkr—ut) 
AI EE Mu, x uz). (2.21) 
AT r 
Nous pouvons établir directement les champs rayonnés à partir de cette expression et de la structure 
locale d’onde plane. Le champ magnétique s’écrit en effet: 


B?” = VxA 


= iku, xA 
i(kr—wt) 
Ho etl 2 : 
= —Mo—k*(— sin us) . 2.22 
gr °° r ( 9) ) 
La structure locale d’onde plane nous donne alors aussi l’expression du champ électrique du dipôle 
magnétique: 
i(kr—wt) 
Ho, e 
E™ = M 
4m ° 


Cette fois, ce sont les lignes de champ électrique qui sont des cercles d’axe Oz. 

On peut aussi procéder par analogie avec le dipôle électrique, ce qui soulignera les similitudes entre 
les rayonnements de ces deux distributions de charges. Le champ magnétique du dipôle électrique (que 
nous supposerons également aligné selon Oz) s'écrit en effet: 


ck? (sin Ou) (2.23) 


i(kr—wt) 
po {wdo\ e” l 
BE = | | 2 | ——ik(u x u,). 2.24 
e ( i ) r (it; 2 ( ) 
Il est donc, à quelques substitutions de symboles près, identique au potentiel vecteur du dipôle 
magnétique. 
Le champ électrique du dipôle électrique s'obtient en écrivant: 


de 1e de 
E% =V xB (2.25) 
W 


et le champ magnétique du dipôle magnétique par: 
B” = V x AF” (2.26) 


En comparant ces deux expressions, nous voyons que B%” s’obtient simplement en substituant doc? 
par Mo dans EŸ. La structure du champ magnétique du dipôle magnétique est donc identique (à 
ce changement de notation près) à la structure du champ électrique du dipôle électrique. Si ces deux 
types de sources n'apparaissent pas au même ordre du développement, elles sont tout à fait similaires. 
En utilisant l'expression (1.78) du champ électrique du dipôle, nous obtenons immédiatement: 


etr-uwt) 


Ba — Mo —k?(— sin bu) | (2.27) 
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Si le terme dipolaire magnétique est le seul à contribuer au rayonnement, nous pouvons estimer 
le flux d'énergie. Rappelons que si plusieurs termes contribuent, ce calcul ne sera pas complet. Il 
faudrait aussi tenir compte des termes croisés entre champs à différents ordres du développement 
multipolaire. Nous ne considérerons donc ici que le cas d’une source dont le dipôle électrique est 
nul. Nous supposerons aussi que la contribution des termes quadripolaires électriques (la seconde 
ligne de (2.16)) est négligeable. Le vecteur de Poynting décrivant le flux d'énergie, en valeur moyenne 
temporelle, s’écrit alors, après quelques transformations élémentaires pour faire apparaître €: 

2 4 
TĪ = p sin? Ou, . (2.28) 
Le diagramme de rayonnement du dipôle magnétique est donc identique à celui du dipôle électrique (on 
se reportera à la figure correspondante). En particulier, le rayonnement est nul dans la direction du 
moment dipolaire magnétique, maximal dans le plan perpendiculaire (le plan du circuit si on imagine 
le dipôle sous la forme d’une petite boucle de courant). 

La puissance totale s'obtient en intégrant le flux d'énergie sur une sphère de rayon r arbitraire. Le 
calcul est exactement analogue à celui du dipôle électrique et nous ne le détaillerons pas. La puissance 
moyenne rayonnée est alors: 

pim = Mô 4 


SR 2.29 
12Te0c (2:23) 


On remarque encore la très rapide dépendance en fréquence de cette puissance. Il est instructif à ce 
point de tenter de comparer, en ordres de grandeur, la puissance rayonnée par un dipôle électrique 
et un dipôle magnétique. On peut se poser bien sûr le question du sens de ce problème. Nous avons 
supposé, pour établir cette expression de la puissance, que le dipôle électrique était strictement nul. On 
peut cependant imaginer deux répartitions de courant, ayant la même extension spatiale et les mêmes 
courants caractéristiques, mais des propriétés de symétrie telles que l’une ait un dipôle électrique et 
l’autre seulement un dipôle magnétique. Si cette démarche peut paraître un peu artificielle pour des 
répartitions de courant macroscopiques, elle est bien justifiée pour le rayonnement d’atomes. Certaines 
transitions partagent en effet des fréquences et des “courants” équivalents mais correspondent à des 
symétries des orbitales mises en jeu telles que l’une se comporte comme un dipôle électrique et l’autre 
comme un dipôle magnétique. La puissance moyenne dipolaire électrique s’écrit: 


de _ dé 4 
FE Dread” Fo 
On en déduit alors d 2 
P Mi 


Pour aller plus loin, il nous faut “comparer” l’amplitude des dipôles électriques et magnétiques, ce qui 
n’a de sens qu’en termes d’ordre de grandeur. Nous ne ferons donc qu’un raisonnement très qualitatif. 
On peut écrire symboliquement: 


do = rod (2.32) 


Mo Î r'jo dr. (2.33) 


Mais jo est de l’ordre de pov où v est la vitesse de déplacement des charges au point r’. On voit bien 
tout le caractère qualitatif de ce raisonnement, qui ne tiendrait que si les deux dipôles étaient décrits 
précisément par la même distribution de courant, ce qui ne peut être le cas. En ordre de grandeur, 
néanmoins, on en déduit: 


Mo = dov (2.34) 
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où v est un ordre de grandeur de la vitesse maximale des charges. On en déduit donc finalement: 


sr ei L (2.35) 


Pdm v 


Notons que ce résultat découle simplement de notre développement en puissances de rp/À. Cette 
quantité est en effet égale à row/c, de l’ordre de v/c. Le terme dipolaire magnétique est donc, pour 
ce qui est des champs, v/c fois plus petit que le terme dipolaire électrique, d’où l’ordre de grandeur 
ci-dessus pour les puissances rayonnées. 

Si les charges sont en mouvement à une vitesse faible par rapport à celle de la lumière, le rayon- 
nement dipolaire magnétique est donc beaucoup moins efficace que le rayonnement dipolaire électrique. 
Si nous considérons par exemple les deux transitions atomiques évoquées plus haut, le rapport des 
puissances émises est de l’ordre de (1/a)? où a = e?/(4reoñc) ~ 1/137 est la constante de structure 
fine. Comme nous le verrons dans le chapitre suivant, l’énergie rayonnée doit être empruntée à l’énergie 
initiale de l’atome et la puissance rayonnée détermine la durée de vie d’un niveau radiatif. Nous voyons 
donc ainsi que la durée de vie d’un niveau ne pouvant rayonner que comme un dipôle magnétique est 
environ 1/a? fois plus grande que la durée de vie d’un niveau “dipolaire électrique”. Celle-ci étant 
de quelques nanosecondes (voir chapitre suivant), la durée de vie d’un niveau “dipolaire magnétique”, 
toutes choses égales par ailleurs, est plutôt de la dizaine de microsecondes. Nous verrons à nouveau 
une illustration de cette différence entre dipôles électriques et magnétiques quand nous considérerons 
des rayonnements d'antennes. Notons pour finir que ce raisonnement prouve, s’il en était besoin, que 
le terme dipolaire électrique domine le terme dipolaire magnétique s’ils sont simultanément présents 
pour une même distribution de courants. 


Quadripôle électrique. 


Nous allons maintenant traiter le terme AŸ° correspondant à la seconde ligne de l’équation (2.16). Il 
s'écrit donc us 
AGE PF (ik) Î L [Cu «rio + ru - jo)] Pr (2.36) 
AT r 2 

Nous allons essayer de transformer l’intégrande pour le mettre sous une forme plus agréable. En 
particulier, nous allons tenter de faire apparaître la densité de charge (nous verrons que le moment 
quadripolaire électrique est au moment dipolaire ce que le tenseur d'inertie est au centre de gravité). 
Pour effectuer ce calcul sans trop de peine, nous abandonnerons un temps les notations de l'analyse 
vectorielle standard. Nous aurons en effet à manipuler des quantités dyadiques (tensorielles de rang 
deux, en d’autres termes). Nous expliciterons donc les dérivées, en utilisant les conventions d’Einstein 
pour alléger les calculs. 

L’intégrande apparaissant dans le potentiel vecteur s'écrit avec ces conventions: 


1 . i 
glust jji + r'iujji] : (2.37) 


L'intégration se faisant uniquement sur r’, on peut donc écrire: 


l 


Î ; [Cu ; r’)jo + r’(u, - jo) dr! _ (iv) Qisu ; (2.38) 


avec 
—iwQij zal [irj + jr dr . (2.39) 


Le facteur —iw a été introduit ici pour simplifier les calculs suivants. Pour expliciter le tenseur Q, 
remarquons que: 
d'(r'ir ijk) = Skir jjk + Ôkjr'ijr + r'ir'jliwp) , (2.40) 
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où toutes les dérivées spatiales s'entendent par rapport à r’. Nous avons utilisé l’équation de conser- 
vation de la charge, qui s’écrit ici 0'kjk = iwpo. On en tire immédiatement: 


j (jir'; + jjr'i) dr! = -iw f (r'ir"jpo) dr (2.41) 


puisque l’intégrale de d’x(r'ir';5x), intégrale d’une divergence sur tout l’espace, est manifestement 
nulle. Finalement, on a: 


Qij = J r'ir'jpolr') dr, (2.42) 


que nous appellerons tenseur quadripolaire électrique (ce tenseur est évidemment symétrique). Nous 
noterons en effet que cette définition coïncide avec celle du quadripôle dans le cadre de l’électrostatique 
et soulignerons l’analogie avec le tenseur d’inertie en mécanique du solide. 

Avec cette définition, les composantes du potentiel vecteur s’écrivent: 


Aii = ———————Q;jur; . (2.43) 


Plutôt que de conserver des expression faisant intervenir les composantes, nous pouvons définir le 
vecteur Q : u, comme le vecteur de composantes urjQji. Le potentiel vecteur s’écrivant alors: 


AL = Qu, (2.44) 


Avant de discuter les propriétés des champs rayonnés, quelques remarques s'imposent. D'abord, 
nous avons ici introduit le quadripôle électrique de la manière la plus simple mais pas de la manière 
la plus commode pour les développements mathématiques. Il est fructueux de définir le quadripôle 
comme un tenseur symétrique de trace nulle (on consultera à ce sujet le Jackson). La définition 
“standard” du tenseur est en fait: 


Q'ij = 305 — fij | r’ podr (2.45) 


dont la trace est évidemment nulle. A part un facteur trois, qui n’introduit que des différences 
algébriques mineures dans les expressions, ces deux définitions diffèrent par un terme diagonal dont 
les trois éléments sont égaux. Le potentiel vecteur correspondant à ce terme diagonal est manifestement 
colinéaire à up. Son rotationnel est nul et les deux définitions conduisent aux mêmes champs rayonnés. 
Nous n’adopterons pas la convention la plus générale. En effet, nous ne traiterons guère en détails le 
rayonnement du quadripôle : il ne sera donc pas très gênant de travailler avec un tenseur de trace non 
nulle. Nous aurons en revanche intérêt à travailler avec la forme la plus simple possible. 

Essayons d'imaginer maintenant des distributions de charge qui ne possèdent pas de dipôles 
électriques mais un quadripôle électrique. La plus simple, comme en électrostatique, est constituée 
de deux dipôles électriques oscillant en opposition de phase (amplitudes opposées) et placés à petite 
distance l’un de l’autre. Les deux contributions dipolaires s’annulent et il ne reste qu’une contribu- 
tion quadripolaire que l’on pourra calculer à titre d'exercice. Une autre distribution quadripolaire est 
constitué d’une répartition de charge uniforme dont la forme évolue entre un ellipsoïde allongé selon 
Oz et un ellipsoïde aplati dans la même direction, en passant par la forme sphérique à mi-période. 
Pour des raisons de symétrie évidentes (symétrie par rapport au plan xOy), cette distribution ne 
possède de moment dipolaire ni électrique ni magnétique. En raisonnant par analogie avec le moment 
d'inertie, on voit bien que cette distribution possède en revanche une composante oscillante non nulle 
du quadripôle électrique. Notons enfin, comme nous le verrons dans un prochain paragraphe, qu’une 
charge ponctuelle oscillant le long de Oz possède, en plus de son moment dipolaire électrique, un 
moment quadripolaire si l’extension du mouvement n’est pas négligeable. 
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Nous pouvons maintenant calculer les champs rayonnés. Nous utiliserons pour cela la structure 
locale d'onde plane. On trouve ainsi immédiatement: 


_ bo, w3 ei i(kr—wt) 


Tr 2 


Le champ électrique s’en déduisant sans difficultés. 

Avec les mêmes restrictions que pour le dipôle magnétique, nous pouvons, dans le cas ou le rayon- 
nement est purement quadripolaire électrique, écrire enfin le vecteur de Poynting en valeur moyenne 
temporelle: 


Be = x (Q : u,) (2.46) 


IT = 1 ô lur x (Q - u,)|? 
1287? coc” r2 
Nous noterons que la dépendance en w est encore plus rapide que pour les rayonnements dipolaires. 
Il est bien difficile de préciser davantage la structure de ces champs sans faire quelques hypothèses 
sur la structure du quadripôle électrique. Nous supposerons donc que le seul élément non nul est 
Q,: = Qo. C’est le cas de la composante quadripolaire pour la charge oscillante. Pour la répartition 
ellipsoïdale, la symétrie impose seulement que les termes non diagonaux soient nuls. Elle impose aussi 
Qxx = Qyy. On peut alors retirer au quadripôle un terme diagonal ayant trois valeurs propres égales 
à Qzx. Nous savons que cela ne change pas les champs rayonnés. En revanche, nous pouvons ainsi 
annuler tous les termes de la diagonale sauf Q,.. La situation que nous décrivons maintenant, sans 
être tout à fait générale, n’en est pas moins importante. 
Dans ce cas, nous avons simplement ur: Q = Qo cos 0u;. Nous pouvons alors réécrire sans difficultés 


(2.47) 


(en utilisant u, x u, = — sin fu,) potentiel vecteur, champ magnétique et vecteur de Poynting moyens 
comme: 
2 i(kr—wt) 
ge DRE" À, 
AT = de 2e = Qo cos Ou, (2.48) 
i(kr—wt) 
qe _ „HO w’ e i 
B = i— "= ue Qo cos 0 sin Ou, (2.49) 
= 1 cos? 0 sin? 0 
qe w$OZ 
m = Tanad” O (2.50) 


Comme pour le dipôle électrique, le champ magnétique est selon ug et ses lignes sont des cercles d’axe 
Oz. Le champ électrique est dans le plan défini par l’axe du quadripôle et la direction d'observation. 
Le diagramme de rayonnement du quadripôle est substantiellement différent de celui du dipôle. La 
puissance rayonnée s’annule aussi bien dans la direction Oz que sur le plan xOy. Le diagramme de 
rayonnement, en coupe dans un plan passant par Oz, se présente donc comme quatre lobes symétriques 
autour de l’origine. Ce diagramme de rayonnement est représenté sur la figure 2.2. 

Finalement, on peut obtenir la puissance totale rayonnée en intégrant le vecteur de Poynting sur 
une sphère de rayon r arbitraire (la dépendance en r disparaissant évidemment). L'intégration sur ® 
est triviale et donne un simple facteur 27. On trouve donc: 


1 
PE = F uo f sin 0 cos? 4 d (2.51) 


L'intégrale sur 0 est facilement évaluée et vaut 4/15. On a donc finalement: 


wQ? 


pes m a 
240Teocÿ 


(2.52) 


Nous noterons encore une fois la dépendance en wf de la puissance émise. On peut comprendre 
qualitativement cette dépendance de plus en plus rapide. Plus nous progressons dans les ordres 


tEn termes d’harmoniques sphériques, le dipôle est associé à celle de moment cinétique total 1 Y+, qui présente deux 
lobes symétriques par rapport à l’origine, le quadripôle à l’harmonique sphérique de moment 2 Y? 
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Figure 2.2: Diagramme du rayonnement d’un quadripôle n’ayant comme seul élément non nul que Q.:. On note que 
le rayonnement est nul sur l’axe et dans un plan perpendiculaire à l’axe. 
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multipolaires, plus nous considérons des modulations subtiles de la répartition de charges. Toutes 
choses égales par ailleurs, plus la longueur d’onde rayonnée sera courte, plus les champs seront sensibles 
à ces très faibles dissymétries de la répartition de charges. 

Comme nous l’avons fait pour le dipôle magnétique, et avec les mêmes restrictions sur la validité du 
calcul, nous pouvons maintenant comparer, toutes choses égales par ailleurs, les puissances dipolaires 
et quadripolaires électriques. On trouve immédiatement: 


PE wQ? 1 


Dans un raisonnement en termes d’ordres de grandeur, on peut approcher do par le produit gro de la 
charge totale par l'extension spatiale des courants. Dans ce cas, Qo est de l’ordre de gré. On a donc 
finalement: Hi. 

DE = 0 (2.54) 
A part le facteur numérique 1/20, cette expression était tout à fait prévisible. N'oublions pas que les 
termes dipolaires électriques et quadripolaires électriques apparaissent comme deux termes successifs 
dans un développement en puissances de l’extension de la source rapportée à À. Les champs sont, à 
chaque ordre, multipliés par un facteur kro et les puissances par un facteur k?rê. Le rayonnement 
quadripolaire est donc beaucoup moins efficace que le rayonnement dipolaire si l’extension de la source 
est très petite devant À. Si nous considérons encore deux niveaux atomiques se désexcitant par 
des transitions en tous points comparables, l’une dipolaire et l’autre quadripolaire, le rapport des 
puissances émises et donc des durées de vie sera de l’ordre de (ag/À)?, où ao est le rayon de Bohr. 
Ce rapport est numériquement de l’ordre de 1078. Les niveaux quadripolaires électriques ont une 
durée de vie 107 à 10° fois plus grande que ceux qui se désexcitent comme un dipôle électrique. Les 
durées de vie de ces niveaux “métastables” peuvent atteindre la fraction de seconde. La raie associée 
à ces transitions est alors très fine, fort intéressante pour la métrologie de fréquence dans le domaine 
optique. 

Nous pourrions poursuivre encore plus loin le développement multipolaire. A l’ordre suivant, 
nous pourrions distinguer deux contributions: le quadripôle magnétique (modélisé par exemple par 
deux spires parcourues par des courants oscillants en opposition de phase) dont le rayonnement est 
très similaire à celui du quadripôle électrique et l’octupôle électrique (deux quadripôles voisins en 
opposition de phase). En fait, l'étude systématique des moments dipolaires d’ordre élevé doit être 
entreprise avec des techniques dérivées de la théorie des groupes. 


2.3 Applications: quelques problèmes de rayonnement 


Nous allons dans ce paragraphe appliquer les développements multipolaires à l’étude du rayonnement 
de quelques sources simples. Nous commencerons par étudier le rayonnement d’une charge oscillante 
en ne faisant plus l’hypothèse, comme au chapitre précédent, que l’amplitude du mouvement est 
négligeable. Nous pourrons ainsi préciser la validité des hypothèses utilisées pour le rayonnement du 
dipôle et voir quelles corrections il y a lieu d'apporter quand ces hypothèses ne sont plus valables. 
Nous aborderons très brièvement ensuite le très riche problème des antennes. Il est si vaste — des 
manuels entiers lui sont consacrés — que nous ne pourrons traiter très brièvement que deux exemples: 
l’antenne dipolaire électrique et l’antenne dipolaire magnétique. 


2.3.1 Rayonnement d’une charge oscillante 


Les notations et le problème sont ceux du dernier paragraphe du chapitre précédent. Une charge q est 
animée d’un mouvement harmonique d'amplitude a et de fréquence w le long de l’axe Oz. Nous ne 
nous préoccupons que du champ rayonné. Tous les résultats précédents étant acquis, le seul problème 
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est de déterminer les différents éléments de la source: dipôle électrique et magnétique, quadripôle 
électrique. 
De façon rigoureuse, le courant associé à la particule peut s’écrire: 


jr) = —-qaw sinwtô(x')6(y)6(2! — acoswt)u, . (2.55) 


C’est simplement le produit de la charge par la vitesse de la particule, localisé à la position de la 
particule. Notons que nous utilisons ici, pour un temps, des notations réelles pour les quantités oscil- 
lantes et que nous nous intéressons au courant complet, pas seulement à une amplitude d’oscillation. 
Dans le chapitre précédent, nous avions supposé le courant localisé à l’origine et remplacé donc la 
dernière fonction ô par 6(2/). Pour aller plus loin, nous pouvons réaliser un développement de Taylor 
de cette dernière fonction ô dont les deux premiers termes nous donneront l’essentiel de la physique si 
l’étendue du mouvement n’est pas trop grande. Nous écrirons donc: 


ô(z' — acoswt) = (7) — acoswtô'(z)+.... (2.56) 


Un tel développement de Taylor d’une “fonction” aussi singulière peut paraître hasardeux. On peut 
se rassurer un peu en montrant l'identité de l’action de la distribution initiale et du développement 
sur une fonction régulière f(z’). Avec les notations de la théorie des distributions, nous avons en effet: 


(6(2 — acoswt)|f) = f(acoswt) = f(0) + f'(0)acoswt +... , (2.57) 


puisque f, régulière en zéro, peut être développée en série de Taylor. Sachant que (6’|f) = —f'(0), 
on reconnaît sans difficulté dans le second membre l’action de la distribution “développée”. En nous 
limitant aux deux premiers termes, nous écrirons donc 


j = —-qawsinwtô(r’) + qa°w sin wt coswtô(x’)ô(y )6 (2!) . (2.58) 


Dans le premier terme du second membre, nous reconnaissons bien sûr le courant localisé à l’origine 
que nous avions utilisé en première approximation. Le second terme, lui, est clairement un courant 
oscillant à la fréquence 2w. Contrairement à ce qu’on aurait pu penser de prime abord, les termes 
correctifs ne sont pas à la fréquence fondamentale, mais à ses harmoniques. 

Nous écrirons donc finalement: 


j=jie + jet, (2.59) 

avec 
ji = —iqawô(r')u, (2.60) 
j — EE SaNi (d'u. (2.61) 


et nous examinerons brièvement ces deux termes. 

jı est le courant du dipôle. Le moment dipolaire magnétique ferait intervenir des intégrales de 
xô(x) (ou de cette forme) qui sont identiquement nulles. Pour estimer le dipôle et le quadripôle 
électriques, il nous faut la densité de charges. A partir de équation de continuité, nous trouvons: 


pı(r’) = —qaë(x")6(y")8" (77) (2.62) 

Les composantes x et y du dipôle électrique font intervenir aussi des intégrales de type xô(x) qui sont 
nulles. Seule la composante selon z est non nulle et le dipôle s’écrit (en notant que f zd’(z) = —1): 

dı = qau; , (2.63) 


un résultat que nous aurions certainement pu prédire directement. Toutes les composantes du tenseur 
quadripôle électrique qui font intervenir une composante x ou y sont nulles. Elles contiennent en 
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effet des intégrales de xô(x) ou æ?6(x) qui sont nulles. La composante Q,, est proportionnelle à 
f z26/(z) dz’. Elle est également nulle. Ce courant est donc un pur dipôle électrique (le même genre 
d’arguments peut être utilisé pour montrer que tous les autres termes du développement multipolaire 
sont nuls). 

j2 ne peut, lui non plus, correspondre à un dipôle magnétique. Les moments dipolaire et quadripo- 
laire s’obtiennent à partir de la densité de charges qui s'écrit: 


i : qa? 1 IN! 

p2 = = V -j2 = ôl) ly)" (7) . (2.64) 
2w 4 

Comme pour p1, les composantes x et y du dipôle sont manifestement nulles. La composante z fait 

intervenir l'intégrale f z/6”(2/) qui est nulle, comme on pourra s’en convaincre par une intégration 

par parties. Pour le quadripôle, toutes les composantes faisant intervenir x ou y sont identiquement 

nulles. Seule la composante Q2,, peut être non nulle. On a effectivement: 


qa? 12 SN I 1 
Une double intégration par parties prouve que f z’°?8"(z")dz' = 2. On a donc finalement: 


a 
Q2zz = 5 . (2.66) 


Le courant j2 correspond donc à un pur quadripôle électrique (on pourrait montrer qualitativement 
que tous les termes d’ordre supérieur sont identiquement nuls). 
Les champs dipolaires électriques et quadripolaires électriques étant à des fréquences différentes, 
il n’y a pas, dans le calcul de la puissance totale rayonnée en valeur moyenne temporelle, de termes 
croisés et on peut écrire P = PÉÆ+P4E, On peut remarquer que, conformément aux ordres de grandeur 
qualitatifs des paragraphes précédents, 
pae k2a2 
Pde 80 
On vérifie ainsi que notre première approximation, consistant à négliger la composante quadripolaire 
électrique à 2w est largement justifiée, même pour des extensions du mouvement voisines de À. 


(2.67) 


2.3.2 Antennes 


Le problème des antennes est d’un importance technologique majeure. Il s’agit en effet, pour optimiser 
les communications, de rayonner la plus grande puissance possible, avec le meilleur rendement vis à 
vis de la puissance fournie par les générateurs. On cherche souvent aussi à optimiser les propriétés de 
polarisation de la lumière émise. Pour une propagation au voisinage de la surface terrestre, conductrice, 
une polarisation verticale est indispensable. On peut enfin chercher à optimiser le diagramme de 
rayonnement, avec des réseaux d'antennes par exemple, pour que toute la puissance émise le soit 
dans la direction utile. Le problème est si vaste qu’il est hors de question de le traiter ici de manière 
complète. De plus, la caractérisation complète d’une antenne de géométrie donnée est un problème 
formidablement complexe. Déterminer le rayonnement, c’est d’abord déterminer les courants dans 
l’antenne. Ces courants dépendent des générateurs mais aussi des champs produits par l'antenne elle 
même. Le courant doit donc a priori être déterminé de façon “self consistante” en tenant compte de 
cette réaction de rayonnement. On peut utiliser pour cela une résolution explicite des équations de 
Maxwell (éventuellement numérique) ou des méthodes de perturbations. Nous nous contenterons ici 
de la première étape de ces calculs en postulant une forme simple pour les courants dans l'antenne. 
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Figure 2.3: Antenne dipolaire électrique 


Antenne dipolaire électrique 


La première antenne que nous considérerons est constituée d’un simple fil rectiligne, de longueur £, 
aligné avec l’axe Oz, symétrique par rapport à O. Ce genre d’antenne est effectivement très largement 
utilisé, tant en réception qu’en émission. Dans la pratique, ce genre d’antennes est attaqué par un 
secondaire de transformateur haute fréquence situé en série avec l’antenne au voisinage de O. Le 
courant circule donc alternativement dans les directions positives et négatives de l’axe. De manière 
évidente, le courant s’annule aux extrémités de l’antenne. Il est assez naturel et sans doute assez 
réaliste de postuler une répartition de courant sinusoïdale le long de l’antenne et d’écrire l’amplitude 
complexe du courant: 


1 

, TZ 
jo(r”) = Io cos FOl’) ; (2.68) 
pour —£/2 < z! < 4/2, le courant étant nul ailleurs. Les deux fonctions 6 servant à localiser le courant 
sur l’axe. Il est évident dès l’abord qu’une telle distribution de courant ne possède pas de moment 
dipolaire magnétique (ce que l’on pourra vérifier par un calcul explicite). Si le moment dipolaire est 


non nul, c’est lui qui dominera le rayonnement. Pour l’estimer, nous allons calculer la densité de 
charges: 


5 ! 
po = ——V : jo = OT sin TE 6(x/)6(y/) . (2.69) 
W W 


Les composantes selon x et y du moment dipolaire sont nulles, puisqu'elles font intervenir des intégrales 
du type x'ô(x'). Le dipôle est aligné selon Oz, comme l’indique la symétrie de l’antenne. Il vaut: 


do = douz ; (2.70) 


avec 


Re (2.71) 
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A moins que l’antenne ne soit très longue par rapport à À, le rayonnement dipolaire domine et la 
puissance moyenne rayonnée vaut: 


S (us) mis (2.72) 


= —— = ——— . 
12Te0c TW 3TŸ EC? 


Cette puissance est directement proportionnelle au carré de l’amplitude du courant qui passe dans 
l’antenne. Il est donc naturel de comparer cette puissance rayonnée à la puissance qui serait dissipée, 
en valeur moyenne, par le même courant circulant dans une résistance. La résistance équivalente à 
l’antenne, encore appelée résistance de rayonnement, R,,a, est finalement définie par: 


I2 
P = D Rrad . (2.73) 
Après quelques manipulations, on trouve: 
8 8y? 
Ris = > 2.74 
d 3TE0C ($) ( ) 
g 2 
= 319 ($) Q. (2.75) 


La résistance de rayonnement est une quantité très importante pour caractériser une antenne. 
Si on désire assurer la meilleure utilisation de la puissance fournie par les générateurs, il faut en 
effet réaliser une adaptation d’impédance entre le générateur et l’antenne: le rapport de la puissance 
dissipée dans l’antenne à la puissance dissipée dans la résistance interne du générateur est maximum 
quand la résistance équivalente de l’antenne est égale à la résistance interne, ou plutôt à l’impédance 
de sortie, du générateur. Pour une antenne dite “demi-onde”, par exemple, telle que £ = À/2, la 
résistance de rayonnement vaut 319/4 = 79 Q. On comprend ainsi pourquoi les impédances de sortie 
des amplificateurs et les impédances itératives des câbles coaxiaux utilisés pour le branchement des 
antennes sont de 75 Q. Notons que l’antenne demi-onde est très favorable, la longueur du fil étant 
alors parfaitement adaptée à une structure d’onde stationnaire du courant sur l’antenne. En fait, 
l’antenne toute entière est une structure résonnante, au voisinage d’une fréquence correspondant à 
L = X/2, avec des nœuds de courant aux deux extrémités et un ventre au centre. Une antenne quart 
d’onde, elle, serait résonnante à condition d’être attaquée par le transformateur à une extrémité (on 
aurait alors un ventre de courant à cette extrémité et un nœud à l’autre). On mesure là l'efficacité 
des antennes dipolaires électriques: un courant de 0.15A suffit à rayonner une puissance de l’ordre du 
Watt. Le calcul que nous avons fait ici est bien sûr fondé sur un modèle particulier de la répartition 
de courant dans l’antenne qui pourrait s’avérer inexact. On pourra, à titre d’exercice, faire le calcul 
pour d’autres répartitions, par exemple pour un courant variant linéairement le long de l’antenne. On 
s’apercevra alors que seul change le facteur numérique devant la résistance de rayonnement, l’ordre 
de grandeur restant le même. 


Antenne dipolaire magnétique 


La deuxième antenne que nous considérerons est représentée sur la figure 2.4. Il s’agit d’une simple 
spire de courant circulaire, de rayon ro, située dans le plan rOy. Le courant, amené par deux fils 
parallèles (que l’on pourra supposer confondus et qui ne jouent donc aucun rôle dans le rayonnement), 
sera supposé constant sur toute la spire et égal à Jo exp(—iwt) (c’est une hypothèse vraisemblable si 
la longueur de la spire est petite devant la longueur d'onde). En coordonnées sphériques, la densité 
de courant pourra s’écrire: 

jo = (Io/ro)ô(r" = ro)ô(0 = T/2)ug . (2.76) 
Les fonctions ô localisent bien le courant sur le cercle. Le facteur ro est introduit pour donner à jo 
la dimension d’un courant par unité de surface (rappelons que la fonction ô(r' — ro) à la dimension 
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A 


Z 


Figure 2.4: Antenne dipolaire magnétique 


de l'inverse d’une longueur, alors que la fonction de dirac de l’angle est sans dimension). Finalement, 
comme on pourra s’en convaincre aisément, ce facteur ro assure bien que l'intensité totale circulant 
dans le circuit ait une amplitude Jo. 

Pour estimer les moments dipolaires et quadripolaires électriques, il nous faut la densité de charges. 
Il est évident que la divergence du courant est nulle: il est orienté selon u, et ne dépend pas de @. 
Il n’y a donc aucun moment multipolaire de nature électrique à aucun ordre. S'il n’est pas nul, le 
moment dipolaire magnétique dominera le rayonnement. On peut l’écrire facilement: 


1 
Mo = : r x jo dr. (2.77) 


En remarquant que r’ x jo est toujours orienté selon u,, on voit qu’il en est de même pour le moment 
magnétique. On peut donc écrire la composante z du moment sous la forme: 


Mo = z fra sin 04046 5 (r' — r0)0(0 — x/2). (2.78) 
ro 


L'intégrale sur @ donne un facteur 27, l'intégrale sur ro revient simplement à faire r’ = ro. Finalement, 
l'intégrale sur 0 donne 1. On a donc, sans surprises: 


Mo = Trélou, . (2.79) 


Il est facile à partir de là de calculer la puissance rayonnée et la résistance de rayonnement, définie 
comme au paragraphe précédent. On trouve: 


472, 4 
nrolfw 
P = 20 2.80 
12eoc5 ( ) 
8T° ro G 
R = —|— 2.81 
rad 2e0c (2) ( ) 


ro 4 
= 160 (2) kQ. (2.82) 
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La résistance de rayonnement croît beaucoup plus vite avec la taille que pour l’antenne dipolaire 
électrique. À taille égale, l’antenne magnétique est beaucoup plus résistive. Elle est donc plus difficile 
à exciter, ce qui explique son faible emploi sauf pour des communications à très basses fréquences. On 
peut comprendre qualitativement cette forte résistance. Si l’antenne dipolaire était équivalente à une 
très faible inductance (celle du fil) en série avec une très faible capacité (encore celle du fil), l’antenne 
magnétique présente une inductance élevée, la rendant très résistive à haute fréquence. 


Chapitre 3 


Sources atomiques de rayonnement 


Nous allons dans ce chapitre appliquer les résultats précédents au rayonnement des sources fondamen- 
tales que sont les atomes. En fait, nous nous poserons essentiellement deux problèmes. Le premier est 
celui de l’émission spontanée. Un atome excité, par absorption d’un photon ou collision électronique 
dans une décharge, passe dans un niveau d’énergie excité. Un simple examen d’une lampe au sodium 
nous apprend qu’il réémet cette énergie sous forme lumineuse. Est-il possible de préciser les con- 
stantes de temps de ce phénomène, c’est à dire la durée de vie des niveaux atomiques excités? L’autre 
problème, d’une importance pratique aussi considérable, est celui de la diffusion de lumière par les 
atomes. Quand un atome est placé dans une onde incidente, il acquiert un dipôle à la même fréquence 
et rayonne. C’est ce phénomène de diffusion qui est, comme nous l’avons déjà mentionné plus haut, à 
l’origine du bleu du ciel. Peut on comprendre cette diffusion atomique? 

Nous essaierons d’abord de comprendre émission spontanée et diffusion dans un modèle complè- 
tement classique de l’atome, le modèle de Thomson de l’électron élastiquement lié. Chaque atome 
est alors assimilé à un oscillateur harmonique chargé ne possédant qu’une fréquence de résonance. 
C’est bien sûr un modèle très naïf comparé à ce que nous savons de la structure atomique. En 
revanche, sa simplicité nous permettra de calculer explicitement une durée de vie radiative et de 
traiter complètement le problème de la diffusion. Nous verrons en particulier comment l'efficacité de 
diffusion varie quand l’onde excitatrice passe à résonance avec la fréquence propre de l’oscillateur. De 
manière surprenante, nous verrons que les ordres de grandeur déduits de ce modèle paraissent tout à 
fait convenables. 

Dans le deuxième paragraphe, nous tenterons de donner un modèle semi-classique. Nous traiterons 
l’atome de manière quantique (nous nous limiterons, pour des raisons évidentes de simplicité, à des 
structures hydrogénoïdes). Nous comprendrons rapidement que l'émission spontanée ne peut être 
décrite dans ce cadre. En l’absence de tout rayonnement incident, les niveaux stationnaires ont bien 
sûr une durée de vie infinie. En fait, l'émission spontanée ne peut être traitée rigoureusement que 
dans un modèle complètement quantique, où le champ, comme l’atome, est quantifié. Ce modèle 
inclut en particulier les fluctuations de point zéro du champ électromagnétique, souvent appelées 
“fluctuations du vide”, et prédit l'instabilité des niveaux atomiques autres que le fondamental (qui, lui, 
fort heureusement, reste stable). Nous nous contenterons donc de traiter le problème de la diffusion de 
rayonnement. Nous verrons qu’il peut être explicitement traité dans deux cas. Le premier correspond à 
une onde incidente qui n’est résonnante avec aucune des fréquences propres (des fréquences de Bohr) de 
l’atome. Comme nous ne pourrons pas traiter l'émission spontanée, nous ne décrirons pas correctement 
l’amortissement du mouvement électronique et nous nous heurterons à des divergences si la fréquence 
d’excitation s’approche d’une résonance atomique. L'autre cas que nous pourrons explicitement traiter 
correspond au cas d’une onde incidente strictement résonante avec une transition atomique, à condition 
qu’on puisse alors négliger l’influence de toutes les autres fréquences propres. Nous montrerons alors 
qu’on peut éliminer les divergences et calculer explicitement l’évolution atomique. 

En traitant la diffusion non résonnante par un atome quantique, nous nous apercevrons que les 
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résultats sont en fait essentiellement identiques à ceux du modèle naïf de l’électron élastiquement lié. 
Nous donnerons ainsi à ce modèle une validité beaucoup plus solide que celle que nous aurions pu lui 
attribuer de prime abord. En fait, dans toute la suite de ce cours, quand nous aurons par exemple à 
traiter de la propagation dans un milieu matériel, c’est ce modèle que nous utiliserons. 

Nous appliquerons enfin, dans le troisième paragraphe, ces résultats au problème de la diffusion par 
un milieu comprenant un grand nombre d’atomes. Ces atomes étant décrits à ce stade par leur seule 
polarisabilité, les résultats de ce paragraphe s’appliqueront en fait à n’importe quel modèle de centres 
diffuseurs (atome classique, atome semi-classique, électrons libres). Nous tenterons en particulier de 
comprendre pourquoi les solides transparents diffusent beaucoup moins que les gaz, alors qu’ils sont 
notablement plus denses. Nous montrerons que le champ diffusé est simplement relié à la transformée 
de Fourier des variations de densité du milieu. Nous pourrons ainsi examiner la diffusion par un milieu 
homogène dense, par un cristal avec une séparation entre atomes de l’ordre de la longueur d’onde, et 
enfin la diffusion par un milieu désordonné comme un gaz. 


3.1 Modèle de Thomson 


3.1.1 Modèle de l’électron élastiquement lié. 


Nous considérerons donc un modèle extrêmement simpliste d’atome: un seul électron, lié par un force 
harmonique isotrope. Ce modèle a connu une certaine faveur au tournant du siècle (on consultera 
pour une approche historique plus détaillée l’appendice sur le modèle de Bohr dans la première partie 
de ce cours). Il était assez naturel d’essayer de comprendre les fréquences discrètes rayonnées ou 
absorbées par les atomes en termes de résonances d’oscillateurs harmoniques. Les expériences de 
Rutherford n’existaient pas encore. Il n’y avait donc aucune raison de postuler une structure planétaire 
pour l’atome (nous avons montré de plus qu’un modèle planétaire serait nécessairement instable). 
En revanche, des coïncidences (très imparfaites et accidentelles) entre les raies de l’hydrogène et les 
harmoniques élevés d’une fréquence fondamentale pouvaient suggérer que les raies observées étaient 
les harmoniques de la fréquence de résonance d’un oscillateur. 

Le modèle de Thomson! (dit encore modèle du “plum-pudding”) s’appuyait sur cette interpréta- 
tion. On considère l’atome comme constitué d’une “gelée” positive, uniformément chargée, portant 
une charge totale unité. Dans cette “gelée”, un électron unique se déplace librement. Le champ 
électrique créé par une sphère uniformément chargée étant, à l’intérieur de la sphère, linéaire en 
fonction de la distance au centre, l’électron se trouve lié par une force harmonique (force centrale 
proportionnelle à la distance). Nous laisserons au lecteur le soin de calculer la constante de force et la 
fréquence d’oscillation en fonction du rayon de la sphère. En prenant un rayon de la sphère de l’ordre 
de l’Ângstrôm, on trouve effectivement une fréquence de résonance dans le domaine optique. On peut 
montrer aussi que l’ordre de grandeur de l’énergie nécessaire pour arracher l’électron est de l’ordre des 
énergies d’ionisation typiques. Enfin, on peut utiliser ce modèle pour calculer, comme nous allons le 
faire à différents endroits de ce cours, les indices de réfraction ou susceptibilités diélectriques typiques. 
Nous verrons que, là encore, au moins en ordres de grandeur, ce modèle était raisonnable. Il a en fait 
tenu jusqu’à la révélation d’un noyau pratiquement ponctuel dans la structure atomique. Le modèle 
de la gelée positive devenait alors intenable. Le modèle planétaire était le seul possible. Sa stabilité ne 
pouvant être comprise dans le cadre de la mécanique classique, il a suscité alors une crise scientifique 
majeure qui ne fut totalement résolue qu’en 1926 avec la découverte de la mécanique ondulatoire par 
Schrödinger et de la mécanique des matrices par Heisenberg. 

Nous ne nous occuperons pas des détails du modèle de Thomson dans ce cours. Nous considérerons 
seulement un électron de masse m et de charge q = —e (e > 0) harmoniquement lié à un centre fixe 
avec une fréquence propre d’oscillation wọ. Avec ces conditions, l'équation de mouvement de l’électron 


IThomson est connu comme découvreur de l’électron, en 1897. En fait, Wiechert (celui des potentiels de Liénard), a 
joué un rôle au moins aussi important dans la découverte de la nature corpusculaire des rayons cathodiques. 
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s'écrit alors: 


dr 


dt? 
r étant la position de l’électron par rapport au centre de forces. A cette équation, il conviendra 
d'ajouter la contribution de la force de réaction de rayonnement. En première approximation, la 
solution de cette équation est bien sûr une évolution harmonique de r selon les trois axes. La trajectoire 
de l’électron est dans le cas le plus général une ellipse centrée à l’origine. “L’état fondamental” de ce 
système correspond bien sûr à un électron immobile à l’origine. 


+wÿr =0, (3.1) 


3.1.2 Emission spontanée 


Nous tenterons dans ce paragraphe de modéliser l’émission spontanée. Nous supposerons que, à 
l'instant origine, l’électron initialement au repos est mis en mouvement. Dans une lampe à décharge, 
ce mouvement serait dû à une collision avec un des électrons libres de la décharge. Nous supposerons, 
pour simplifier les calculs sans beaucoup restreindre la généralité, que le mouvement de l’électron est 
ensuite linéaire, orienté de long de l’axe Oz?. Cet électron oscillant se comporte comme un dipôle. Les 
ordres de grandeur du modèle montrent en effet que l’extension du mouvement (au plus de l’ordre du 
diamètre de la sphère chargée, c’est à dire de l’ordre de l Ångström) est très petite devant la longueur 
dď’onde rayonnée (de l’ordre du micron). Il est alors aisé de calculer, en utilisant les résultats du 
premier chapitre, la puissance rayonnée par l’électron: 

=, 4 7000. (3.2) 

12re0c ? ` 

où 20 est l’amplitude du mouvement. Dans notre modèle, l’énergie rayonnée ne peut provenir que 
de l’énergie mécanique de l’électron. Cette énergie est donc une fonction décroissante du temps: le 
mouvement de lélectron doit s'amortir. 

L’amortissement du mouvement de l’électron, lent devant la période, peut être décrit au moyen de 
la fore de réaction de rayonnement f = mrTà. En incluant cette force, l'équation du mouvement de 
l’'électron s'écrit: 

dr dr 

de "de 
où 7 est le temps caractéristique de la réaction de rayonnement défini plus haut. On peut aisément 
trouver les fréquences propres de cette équation, sous forme d’un développement en termes de 7 = wor. 
Ce paramètre est effectivement, pour une transition optique ordinaire, de l’ordre de 107 1° (on rappelle 
que l’ordre de grandeur de r est 107°4 s). En portant dans l'équation du mouvement une solution en 
r = roexp(—iwt) et en posant: 


+wÿr =0, (3.3) 


w =wp(l+x), (3.4) 


on met l’équation caractéristique sous la forme: 


(1+x)? —in(i+x) +1—0. (3.5) 


.1 
= IS. 3.6 
z is (3.6) 
On peut alors écrire 
w=w(1- à +9) ; (3.7) 


20n pourra, à titre d'exercice, considérer le cas général en superposant des mouvements d’amplitudes et de phases 
arbitraires le long des trois axes. 
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où y est du second ordre en 7. En reportant cette forme dans l’équation caractéristique et en identifiant 
les termes d’ordre 2, on trouve: 


5n? 
=—— ., 3.8 
7 (3.8) 
La seule solution physiquement acceptable à l’ordre 2 en 7 peut donc s’écrire: 
w = w + Aw — iy/2. (3.9) 
Le terme 5 
= -50 wo (3.10) 


correspond à un déplacement de fréquence. Il est, comme nous le verrons, tout à fait négligeable. Le 
terme imaginaire correspond, comme nous l'attendions, à un amortissement du mouvement. L'énergie 
mécanique, proportionnelle au carré de l'amplitude du mouvement, est amortie exponentiellement 
avec un taux y (et une constante de temps T = 1/y) égal à: 


2, 2 
2 q wo 


GTeocmc? ` 
Une manifestation expérimentale de cette décroissance exponentielle est que le spectre de fluorescence 
d’un ensemble d’atomes ait une forme lorentzienne. Le spectre étant relié à la transformée de Fourier 
de la réponse temporelle?, celle-ci, transformée de Fourier d’une Lorentzienne, est une exponentielle. 
On peut bien sûr maintenant accéder aussi, directement, à la réponse temporelle avec une électronique 
modérément rapide. Un des grands mérites de ce modèle très simplifié est donc de prédire correctement 
l'émission de lumière par des atomes excités ou émission spontanée. 

Estimons l’ordre de grandeur de la durée de vie radiative T et du taux d’émission spontanée y 
(notons que nous avons déjà effectué un calcul semblable dans les paragraphes sur la réaction de 
rayonnement avec un modèle différent d’orbites circulaire. Sans surprises, les ordres de grandeur 
relatifs aux deux modèles sont similaires). Pour cela, nous calculerons le rapport y/wo, l'inverse 
du “facteur de qualité” de l’oscillateur harmonique. Ce rapport est proportionnel à la fréquence du 
rayonnement wọ. Pour un ordre de grandeur, nous allons utiliser les fréquences prédites par le modèle 
de Bohr, décrit en détails dans l’appendice de la première partie de ce cours. Assez bizarrement, 
nous mêlons ainsi des arguments du modèle planétaire de la “première théorie quantique” de 1913 
avec le modèle, incompatible, de l’électron élastiquement lié. Rien, a priori, ne fixant la fréquence de 
résonance dans le modèle de Thomson, il nous faut bien utiliser les valeurs expérimentales, qui sont 
correctement prédites par le modèle de Bohr. La fréquence est donc de l’ordre de la constante de 
Rydberg divisée par la constante de Planck, R/h. La constante de Rydberg, elle même, est de l’ordre 
de: 


1 
R= meo? f (3.12) 


produit, à un facteur deux près (dont l’origine peut être reliée au théorème du viriel), de l’énergie de 
masse de l’électron par le carré de la “constante de structure fine” œ définie par: 
te 
” Areñc ` 


(3.13) 


En portant cette expression de l’ordre de grandeur de la fréquence atomique dans le facteur de 


qualité, nous trouvons: 
7 RT emea? a3 
— => WoT z= —— = — => — 
wo h 127reochmce? 3 


3En fait le spectre est la transformée de Fourier de la fonction de corrélation du champ émis, qui se rapporte à la 
réponse temporelle pour une excitation impulsionnelle. 


(3.14) 
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Nous trouvons ainsi un résultat très simple (mais certainement pas inattendu): le facteur de qualité 
typique d’un oscillateur atomique est de l’ordre de l’inverse du cube de la constante de structure fine. 
Numériquement, il est donc de l’ordre de 107. La fréquence d’une transition atomique étant, dans 
le domaine visible, de l’ordre de 101% Hz, le taux d'émission spontanée est de l’ordre de 108 s-!. La 
durée de vie radiative d’un atome excité est donc de l’ordre de la dizaine de nanosecondes. La valeur 
expérimentale pour la fameuse raie jaune du sodium (en fait un doublet de structure fine à 589 et 
589.6 nm) est de 16 ns, correspondant à une largeur de la raie de l’ordre de 10 MHz. Notre modèle, 
de façon un peu surprenante, est plus que raisonnable{. 

Estimons maintenant le déplacement de fréquence Aw. Il est facile de voir que: 

5 
Aw = zT (3.15) 
Il ne vaut qu’une fraction de Hertz et il est donc complètement négligeable. Notons que, dans un modèle 
quantique, il existe des déplacements des niveaux beaucoup plus importants (de l’ordre du GigaHertz) 
dûs au couplage de l’atome aux modes vides du champ électromagnétique quantifié (déplacements de 
Lamb). 

Avant de poursuivre, nous pouvons simplifier un peu l’équation du mouvement de l’électron pour 
nous affranchir du terme du troisième ordre, —rd?r /dt?. Comme le facteur de qualité de la transition 
atomique est très grand, le mouvement est très proche d’un mouvement harmonique. Avec une très 
bonne approximation, ce terme peut donc s'écrire rwÿi. La force de réaction de rayonnement peut 
donc être considérée comme proportionnelle à la vitesse. On écrira donc l’équation du mouvement 
tenant compte de la réaction de rayonnement sous la forme: 


dr + dr 
Va 


E + wôr =0. (3.16) 


Nous pouvons maintenant, en utilisant cette équation, traiter le problème de la diffusion d’un champ, 
éventuellement résonnant. 


3.1.3 Diffusion du rayonnement. 


Nous étudierons dans ce paragraphe le rayonnement d’un atome classique, excité de façon permanente 
par une onde plane monochromatique. Sous l'influence de cette onde, l’atome acquiert un dipôle 
induit qui rayonne. A la différence du paragraphe précédent, il s’agit alors d’un rayonnement en 
régime stationnaire. De plus, l’onde incidente n’est pas nécessairement résonnante à la fréquence 
propre de l’atome. 


Dipôle induit. Polarisabilité. 


Nous supposerons l’onde incidente polarisée linéairement selon Oz (la généralisation ne présente aucune 
difficulté). Nous ne considérerons pas le cas d’une onde de très haute fréquence, pour lequel la taille 
de l’atome pourrait être comparable à la longueur d'onde. Nous pourrons donc supposer l’atome 
ponctuel et ignorer la structure spatiale de l’onde. Nous écrirons donc simplement le champ électrique 
incident sous la forme Fou, exp(—iwt). La fréquence w est arbitraire, la phase de l’onde choisie de 
telle manière que Æ soit réel (ce qui ne restreint en rien la généralité). L’équation du mouvement de 
l’électron en présence de cette onde s'écrit, avec le terme de réaction de rayonnement: 


d?r £ dr 

de h 

tIl ne permet cependant pas de comprendre pourquoi il existe des raies atomiques beaucoup plus fines, correspondant 

à des durées de vie infiniment plus longues que ce que nous venons de calculer. La raie de 1S vers 2S de l'hydrogène, 

par exemple, aurait dans notre modèle une durée de vie de l’ordre de la nanoseconde (c’est une raie dans l’ultraviolet 
lointain). Sa durée de vie est, en fait, de 1/7 de seconde! 


E | 
+ ogr = Tae h ; (3.17) 
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La solution contient un terme transitoire, dépendant de la condition initiale pour l’atome, qui s’amortit 
en un temps de l’ordre de 7. On peut en général ignorer ce transitoire et ne considérer que la solution 
en régime permanent. Elle s'écrit évidemment sous la forme ro exp(—iwt) avec: 


E 
Wa I i; (3.18) 
w — w? — iqw 


L’amplitude complexe du dipôle électrique acquis par l’atome à la fréquence w s’écrit donc: 


2 
do = a i . (3.19) 
wa — w? — iyw 


Elle est proportionnelle à l'amplitude du champ incident. On peut donc définir la polarisabilité 
classique de l’atome à la fréquence w, ac(w), par: 


do = eoae(w)Eo . (3.20) 
Cette polarisabilité est simplement donnée par: 


q? 1 
acw) = — -5 . (3.21) 
MEQ Wg — WE — yw 


On notera qu’avec cette définition, la polarisabilité est homogène à un volume (nous verrons dans 
la partie sur l’électromagnétisme dans les milieux matériels l'intérêt de ce choix). A fréquence nulle, 
on a simplement @c(0) = q?/meowÿ. On vérifiera par un calcul évident d’électrostatique que la 
polarisabilité à fréquence nulle coïncide avec le volume de la sphère contenant la “gelée” positive. On 
remarquera aussi que, en faisant wọ = 0, on trouve bien la polarisabilité d’un électron libre. Ce modèle 
nous permet aussi de traiter la diffusion de rayonnement par un plasma dont les charges peuvent, en 
première approximation, être considérées comme libres. Notons finalement que l’expression de la 
polarisabilité peut se simplifier, au voisinage de la résonance, quand l'amortissement y est très petit 
par rapport à la fréquence propre. On a alors: 


Co o l 
meowo 2(wo — w) — iy ` 


acw) = (3.22) 


Le module au carré de la polarisabilité est alors une simple lorentzienne, de centre wọ et de largeur y. 
Le facteur de qualité des résonances atomiques étant toujours excellent, cette approximation est très 
légitime et toujours utilisée. 


A partir de l'expression du dipôle induit, nous pouvons aisément estimer la puissance rayonnée. 
Elle fera intervenir le carré du module de la polarisabilité, sous la forme: 


€0 


= glee oE . (3.23) 


Cette puissance est évidemment proportionnelle au carré de l'amplitude du champ incident. Pour 
obtenir un résultat indépendant de l'intensité de londe incidente, nous allons rapporter la puissance 
diffusée à la puissance incidente par unité de surface, coc Eĝ/2. Le rapport d’une puissance à une 
puissance par unité de surface est une surface. Nous caractérisons ainsi l'efficacité de diffusion de 
l’atome par une section efficace o. La puissance diffusée est simplement la puissance incidente sur une 
surface g (normale à la direction de propagation). En un mot, tous les photons qui “tombent” dans 
une surface © centrée sur l’atome sont diffusés. On a: 


= (2) lod. (3.24) 


C 
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Section efficace 


Fréquence 


Figure 3.1: Section efficace de diffusion en fonction de la fréquence, exprimée en unités de wo. Le facteur de qualité à 


été limité à 3.3 pour rendre la figure lisible. 


On peut encore écrire, en explicitant la polarisabilité: 


1 qf wt 


S —— E 3.25 
7 prca meg (wê — w?) + 7w? GS) 


Pour simplifier quelque peu le préfacteur, nous allons faire intervenir une dimension caractéristique de 

l’électron, le “rayon classique de l’électron” re que nous avons déjà rencontré à propos de la réaction 
1 

de rayonnement. Un simple argument d’analyse dimensionnelle montre que la seule longueur qu’on 

peut former à partir des caractéristiques de l’électron est: 


q 3 
E 3.26 
e Areomc? 2? (320) 
qui est de l’ordre de 3 fm. On peut donc écrire enfin: 
8 4 
o = Tr? a (3.27) 


3e (wh — w?) + yw 


La figure 3.1 présente la section efficace de diffusion en fonction de la fréquence. 
Pour des fréquences proches de résonance, nous pouvons écrire, comme pour la polarisabilité: 


8T w? 
o= >r? 


E, 3.28 
3 le A(wp — w)? + 7? ( ) 


La section efficace est le produit de la “surface de l’électron” par un facteur présentant une résonance 
Lorentzienne en wo. La section efficace sera donc qualitativement très différente selon que la fréquence 
incidente est très grande, très petite ou voisine de la fréquence propre. Nous allons examiner séparément 
ces différents cas. 


Diffusion Rayleigh 


Nous considérerons d’abord le cas de la diffusion très basse fréquence: w < wo. C’est par exemple 
pratiquement toujours le cas pour la diffusion radiofréquence ou infrarouge lointain. C’est aussi le 


262 CHAPITRE 3. SOURCES ATOMIQUES DE RAYONNEMENT 


cas de la diffusion de la lumière visible par l’air. Les première fréquences de résonance optique de 
l'oxygène ou de l’azote sont en effet situées dans le domaine ultraviolet. En tenant compte de cette 
condition, la section efficace s'écrit simplement: 


8 4 
o = ae (2) . (3.29) 


Cette expression appelle plusieurs commentaires. D’abord, la valeur de la section efficace est 
extrêmement faible. Même si w est de l’ordre de wọ, la section efficace n’est que de l’ordre de la “surface 
classique” de l’électron, 1073? m?. Pour mieux comprendre la faiblesse de cette valeur, calculons la 
longueur de propagation nécessaire pour que la lumière incidente soit notablement atténuée par la 
diffusion, L. Avec un faisceau de section S, l’atténuation sera complète si S = Mo où N = NSL est 
le nombre total de molécules dans le faisceau sur une longueur L (N est la densité numérique). On 


trouve donc simplement: 
1 


A 
Pour un gaz à la pression atmosphérique, la densité typique est de 3.10°5 m Ÿ. En prenant une 
valeur très surévaluée de 107% m? pour ø, on trouve une longueur d'atténuation L de 30 km. On 
comprend donc pourquoi, dans la journée, la lumière solaire, qui ne traverse que quelques kilomètres 
d’atmosphère dense, n’est pas très atténuée par diffusion (la lumière directe est très intense par rapport 
au “bleu” du ciel). En revanche, au lever ou au coucher du soleil, la lumière, sous incidence rasante, 
traverse une épaisseur de gaz beaucoup plus considérable, pouvant dépasser la centaine de kilomètres. 
Dans ce cas la lumière est fortement atténuée. 

Remarquons aussi la très rapide dépendance de la section efficace en fonction de la fréquence 
incidente. Les courtes longueurs d’onde, plus proches de la résonance, sont diffusées beaucoup plus 
efficacement que les plus longues. Voici une explication simple de la couleur bleue de la lumière diffusée 
par les gaz ou les fumées. La lumière transmise, elle, apparaît plus rouge, les fréquences les plus élevées 
étant aussi les plus atténuées. 

Notons que ces raisonnements nous donnent quelques indications sur l'efficacité de la diffusion ou 
la nature du spectre diffusé par un gaz. Ils ne nous prouvent pas, en revanche, qu’un échantillon 
macroscopique de gaz diffuse. La manière dont s’additionnent les rayonnements produits par les 
différentes molécules du gaz n’est pas du tout prise en compte dans ce raisonnement simpliste qui ne 
considère qu’une molécule unique. On pourrait se demander en particulier pourquoi un gaz diffuse 
alors qu’un verre, pourtant beaucoup plus dense, ne diffuse pratiquement pas s’il est pur. Ainsi, la 
longueur d’atténuation dans les fibres optiques est de l’ordre de la dizaine de kilomètre aussi, alors que 
la densité numérique est trois ordres de grandeur plus élevée que celle de l’air. Pour bien comprendre 
cet effet, il faut analyser en détails le processus de diffusion macroscopique. On montre alors que les 
fluctuations thermodynamiques de densité jouent un rôle essentiel dans la diffusion. Pour un milieu 
statique, comme un verre, les amplitudes diffusées interfèrent destructivement et il ne reste que la 
lumière transmise vers l’avant. Pour un gaz, le nombre de particules dans un volume de l’ordre de 
X est fluctuant. Ces fluctuations sont responsables de la présence de lumière diffusée. Il faut donc 
prendre avec précautions les ordres de grandeur que nous venons de donner. 


(3.30) 


Diffusion Thomson 


Nous considérerons maintenant le domaine des hautes fréquences w © wo. C’est, par exemple, celui 

de la diffusion des rayonnements X dans les matériaux non absorbants. On trouve alors simplement: 
8T 

o = zre f (3.31) 

La section efficace est constante, indépendante de la fréquence incidente, simplement égale à la surface 

classique de l’électron. En fait, pour de hautes fréquences incidentes, le fait que l’électron soit lié par 
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une force harmonique n’a pratiquement aucune influence sur la diffusion. On trouve ici simplement la 
section efficace de diffusion par un électron libre. Les ordres de grandeur de la section efficace et des 
longueurs d’atténuation sont essentiellement les mêmes que dans le paragraphe précédent. 


Diffusion résonnante 


Le régime le plus intéressant est celui où la fréquence incidente est proche de la résonance atomique 
w © wọ. La section efficace présente alors un comportement quasi Lorentzien autour de wọ décrit par 
l'équation (3.28). 

Pour étudier les ordres de grandeur, nous nous focaliserons sur le cas où le rayonnement incident 
est strictement résonant: w = wọ. Dans ce cas, 


8 2 
o= Er (=) . (3.32) 


La section efficace est beaucoup plus grande que la surface classique de l’électron. Nous avons vu 
en effet que le facteur de qualité de la transition atomique est de l’ordre de 107”. La section efficace 
résonante est donc 14 ordres de grandeur plus élevée que les sections Thomson ou Rayleigh. Plus 
précisément: 


1 6 3 
Daa (3.33) 
7 WOT qg"w0 
et donc À 
ja (3.34) 


On en déduit finalement à 
= >)? ‘ 
o E (3.35) 


où )o est la longueur d’onde de la lumière résonante. La section efficace de diffusion résonante est donc 
de l’ordre du carré de la longueur d’onde, 1 micron carré environ. En considérant par exemple une 
vapeur de sodium sous une pression de 1075 torr (ce qu’on obtient dans une ampoule chauffée à une 
centaine de degrés) soit une densité numérique de 1017 m~, on trouverait une longueur d'absorption 
(le raisonnement des paragraphes précédents reste correct) de 100 um. Il s’agit bien sûr d’une valeur 
trop faible. On constate expérimentalement que le rayonnement est atténué sur une longueur courte, 
mais notablement plus longue que ce que nous venons de calculer, surtout quand le rayonnement 
incident est intense. 

L'origine de ce désaccord vient du fait que nous travaillons avec un modèle linéaire qui ignore toute 
saturation du système atomique. Aussi intense et aussi résonante que soit l’onde incidente, l’atome 
répond toujours linéairement, avec une section efficace indépendante de l'intensité incidente. Si on 
quantifie correctement la dynamique atomique, on s'aperçoit que ce comportement n’est valable que 
pour des diffusions non résonantes (c’est ce que nous établirons dans le prochain paragraphe). Pour la 
diffusion résonante, l'atome ne peut diffuser plus d’un photon dans un intervalle de temps y-!. Comme 
nous le verrons dans le prochain paragraphe, il peut osciller rapidement entre les deux niveaux d’énergie 
bordant la transition résonnante mais ces cycles correspondent à des cycles absorption/émission induite 
qui ne changent pas le nombre de photons de l’onde incidente. Les seuls événements qui correspondent 
à une diffusion sont ceux se produisant par émission spontanée, tous les y7}. L’ordre de grandeur de 
la section efficace que nous donnons ici ne sera correct que si l’atome diffuse beaucoup moins d’un 
photon dans une durée de vie radiative. Il faut donc que la puissance incidente soit petite devant un 
photon (avec une énergie d’environ un eV) par 10 ns et par micron carré. L’ordre de grandeur de la 
“puissance de saturation” est donc de 10 W/m? ou encore de 1 mW/cm?. Une approche quantique 
rigoureuse donne exactement cet ordre de grandeur. Le modèle de Thomson fait encore la preuve de 
son efficacité. 
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Notons aussi que nous avons supposé dans tout ce raisonnement que la largeur de la résonance 
était entièrement déterminée par la durée de vie spontanée. L'analyse est un peu plus complexe si on 
tient compte d’une autre cause d’élargissement, comme l'effet Doppler. On trouve alors en général 
une réduction importante de la section efficace de diffusion et, en conséquence, une augmentation de 
la puissance de saturation. 

Nous avons maintenant déduit tout ce qui était accessible avec le modèle de Thomson. Nous allons 
maintenant nous consacrer à un modèle semi-quantique (ou semi-classique) qui nous permettra de 
donner une assise plus solide aux résultats que nous venons d’établir. 


3.2 Modèle semi-—classique 


Nous traiterons dans ce paragraphe le rayonnement d’une source atomique dans un modèle où nous 
quantifierons la structure atomique. En revanche, le champ électromagnétique sera encore considéré 
comme une quantité classique. Cette quantification partielle nous empêchera de décrire le phénomène 
d'émission spontanée. Celle-ci ne peut être comprise quantitativement que dans un modèle où le 
champ est convenablement quantifié (l’émission spontanée est, en partie, “induite” par les fluctua- 
tions de point zéro du champ électromagnétique, les célèbres “fluctuations du vide”, authentiquement 
quantiques). Pour éviter ces difficultés, nous ne traiterons dans ce paragraphe que de la diffusion de 
rayonnement par un atome quantique. En nous plaçant dans des régimes limites convenables, nous 
pourrons éviter d’avoir à tenir compte de l’émission spontanée. Dans un premier paragraphe, nous 
nous poserons le problème de relier les observables atomiques au rayonnement diffusé. Quel dipôle 
devons nous insérer dans les formules classiques du rayonnement pour estimer la puissance diffusée 
par un atome? Ensuite, nous écrirons les équations d'évolution quantiques d’un atome placé dans un 
champ incident. Nous traiterons ensuite deux cas limites: la diffusion non résonnante et la diffusion 
strictement résonnante. 


3.2.1 Rayonnement d’un atome quantique 


Nous considérerons un modèle atomique très simple, celui d’un atome à un électron, l'hydrogène. Les 
niveaux atomiques résultent de la quantification de mouvement de l’électron dans le potentiel central 
du noyau°. On trouvera cette quantification détaillée dans les manuels de mécanique quantique (Cohen 
en particulier). Nous nous contenterons ici de savoir qu’il existe des niveaux stationnaires |i} d'énergie 
E;, états propres du Hamiltonien atomique Ho (énergie cinétique plus énergie potentielle de liaison). 
Le fondamental sera appelé |g). Son énergie est nulle par convention. Ces niveaux, que nous traiterons 
comme s'ils étaient non dégénérés, sont des états propres de l’opérateur parité, qui commute avec le 
Hamiltonien. Les fonctions d'onde leur correspondant sont donc paires ou impaires par rapport à 
l’origine (où est situé le noyau). Pour l'hydrogène, ainsi, le niveau fondamental est le 15, avec une 
fonction d’onde à symétrie sphérique, donc paire. Les premiers niveaux excités sont le 25, également 
pair et le 2P, impair (la fonction d’onde est, en coordonnées sphériques, proportionnelle à cos 0 —voir 
l’appendice de la première partie). 

La position de l’électron dans l’atome est un opérateur R. Le dipôle électrique est donc, lui 
aussi, un opérateur relatif à l’électron, D = qR (q étant la charge de l’électron). Pour estimer la 
puissance rayonnée par l’atome, nous avons besoin, dans ce modèle semi-classique, d’une amplitude de 
dipôle classique. Le plus naturel est d'employer la valeur moyenne de l’opérateur dipolaire dans l’état 
atomique. On décrira bien ainsi le rayonnement d’un grand nombre d’atomes soumis au même champ 
incident, ce qui est bien, en général, le problème de la diffusion. Nous emploierons donc les formules 
standard du rayonnement dipolaire avec d = (D). Il est évident que nous ne pourrons ainsi traiter 
que le rayonnement moyen d’une grande assemblée d’atomes (les valeurs moyennes de la mécanique 
quantique décrivent des moyennes sur un grand nombre de réalisations d’une expérience unique, les 


5On négligera ici tous les effets dûs au spin de l’électron ou du noyau. 
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moyennes d'ensemble). Parler, dans ce modèle, du rayonnement d’un atome unique n’aurait aucun 
sens. En fait, un atome unique émet un photon en effectuant un saut quantique d’un niveau à un 
autre. Un tel processus, impliquant un photon unique et tenant nécessairement en compte l’appareil 
détectant ce photon, n’a pas de sens dans une description classique du champ. 

Nous pouvons tout de suite nous poser le problème de savoir quel type d'états atomiques rayonnent. 
Il faut que la valeur moyenne de l’opérateur dipolaire 


(D) = (WIDIP) = a f WP dr (3.36) 


(|F) est la fonction d'onde atomique) soit non nulle. Si |Y} a une parité bien définie, le carré de son 
module est toujours pair et l’intégrale identiquement nulle. Les états propres du Hamiltonien atomique 
étant de parité bien définie, le dipôle moyen dans tous ces états est nul. Les niveaux stationnaires 
ne rayonnent pas et sont donc stables. On constate là l’insuffisance évidente d’un modèle traitant le 
champ classiquement. Nous savons bien que de tous les niveaux atomiques seul le fondamental, |g), 
est stable. Tous les autres perdent leur énergie par rayonnement, même si la durée de vie est très 
longue (des années pour les niveaux excités hyperfins). Il est tout simplement impossible de traiter 
l'émission spontanée dans un cadre classique. D'un point de vue plus positif, l'émission spontanée est 
la preuve la plus formelle de la nature quantique du champ électromagnétique. 

Seules rayonnent donc des fonctions d’onde dont la parité n’est pas bien définie. Il s’agit de 
combinaisons linéaires de niveaux de parité opposée. Si , à un instant donné, 


Iv) = TU) ph. (3.37) 


alors 
(D) = Re (i[D|j) = Reg f ViVrdr, (3.38) 


qui peut être non nul si |i} et |j} sont de parité opposée. Ces niveaux n’ayant pas la même énergie, la 
superposition évolue temporellement comme: 


(Jije Et p ie sun), (3.39) 


Le dipôle moyen évolue donc comme: 
(D) = Re (iDij)e it, (3.40) 


où wji = (Ej — Ei) /ħ est la fréquence de Bohr entre ces deux niveaux. L’atome dans une superposition 
de ces deux niveaux rayonne donc à la fréquence de Bohr, c’est à dire à la fréquence de la transition 
atomique, ce qui n’est pas très surprenant. Notons qu’une superposition plus complexe, mettant en 
jeu plusieurs niveaux de parités variées, correspondra à un dipôle oscillant sur plusieurs composantes 
de fréquence. Celles-ci sont les fréquences de Bohr des transitions “autorisées” entre ces niveaux, celles 
pour lesquelles l’élément de matrice dipolaire (i|D|j} est non nul. 

Pour illustrer visuellement le rayonnement d’une superposition dďd’états, la figure 3.2 présente le 
module de la fonction d’onde d’un atome d’hydrogène préparé dans une superposition quantique des 
états |[1S) et [2P) (m = 0 correspondant à une orbitale antisymétrique par rapport au plan xOy) 
à deux instants séparés par une demi-période de Bohr. En n'oubliant pas que la densité de charge 
électronique est proportionnelle au carré du module de la fonction d’onde, on voit bien que la charge 

La nullité du dipôle moyen d’un état stationnaire est liée à l’invariance par renversement du sens du temps de la 
dynamique atomique. Si la symétrie est respectée, le dipôle doit être nul. De nombreuses expériences ont été consacrées 
à la recherche d’un moment électrique dipolaire pour un atome isolé (ou d’un neutron, les arguments étant à peu près 


les mêmes), dans le but de mettre en évidence une éventuelle violation de la symétrie temporelle. Elles ont permis de 
mettre des limites supérieures très basses aux dipôles, mais pas encore de mesurer un effet. 
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s > z/a, 


Figure 3.2: Carré du module de la fonction d'onde d’un atome d’hydrogène préparé dans une superposition quantique 
des états 1S et 2P, m = 0, à deux instants séparés par une demi-période de Bohr (en traits pleins et pointillés). On 
représente ce carré le long de l’axe de quantification Oz. On note que le barycentre de la distribution de charge oscille 


selon Oz. 


moyenne oscille autour de l’origine à la fréquence de Bohr. Pour préparer une telle superposition 
d’états, nous ne pouvons guère, dans le cadre de ce modèle, que soumettre l’atome à une onde incidente, 
elle aussi traitée classiquement. Nous pourrons alors calculer le dipôle moyen en appliquant l’équation 
de Schrödinger et déterminer ensuite le champ rayonné. Essentiellement, nous nous cantonnerons au 
problème de la diffusion. La situation sera bien sûr très différente selon que l’onde incidente sera 
résonnante sur la fréquence de Bohr d’une transition autorisée ou non. 


3.2.2 Diffusion du rayonnement 


Nous soumettons donc notre atome quantique à une onde plane incidente, le champ électrique au 
voisinage de l’origine étant de la forme E = Eou, exp(i(kx — wt)) (nous choisissons une onde plane 
polarisée selon u, et se propageant dans la direction uz). Nous négligerons bien sûr la réaction de 
rayonnement, c’est à dire le champ rayonné par l’atome lui même, par rapport au champ incident. Il 
ne serait d’ailleurs pas possible d’en tenir compte de façon satisfaisante dans ce modèle. Le potentiel 
vecteur de cette onde s'écrit A = —(iÆ0/w)u, exp(i(kx — wt)). Son potentiel scalaire est bien sûr 
identiquement nul. Nous nous placerons ici en jauge de Coulomb. 


Hamiltonien d'interaction 


La première étape du calcul est de déterminer la forme du Hamiltonien atomique en présence de l’onde 
incidente. Pour cela, nous nous appuierons sur les résultats de la partie sur la mécanique analytique, 
où nous avons établi l'expression du Hamiltonien classique d’une particule chargée en présence d’un 
champ. Nous remplacerons, en suivant les préceptes de la quantification canonique, les variables 
conjuguées p et r par des opérateurs conjugués P et R (nous noterons r la position au lieu de q). 

Le Hamiltonien classique s’écrivant: 


+qV(r), (3.41) 
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où A est le potentiel vecteur et V le potentiel scalaire, le Hamiltonien total quantique est simplement: 


2 
pa TAE R (3.42) 
2m 
obtenu en remplaçant position et impulsion par les opérateurs correspondants, y compris dans les 
expressions des potentiels. Dans le cas qui nous occupe, le potentiel vecteur est celui de l’onde 
plane incidente. Le potentiel scalaire est le potentiel électrostatique de noyau assurant la liaison de 
l’électron. Dans un calcul plus complet, pour un atome à plusieurs électrons, il conviendrait de tenir 
compte également de l’interaction entre électrons. Il faudrait aussi tenir compte d’autres termes dans 
le Hamiltonien, décrivant les structures fines ou hyperfines des niveaux. 
En développant le carré et en n’oubliant pas que P et À, devenu un opérateur comme fonction de 
R, ne commutent pas, on obtient: 


2 
H=Ho->-(P-A+A-P)+2—A?, (3.43) 


où Ho = P?/2m + V est le Hamiltonien de l’atome libre. 

En général, les effets de l’onde incidente sont petits par rapport à l’effet du potentiel de liaison. En 
d’autres termes, le champ électrique de l’onde incidente est petit devant le champ électrostatique de 
liaison (de l’ordre de 10! V/m). Les termes s’ajoutant à Ho dans l'équation précédente ont donc une 
influence petite et les états propres de H sont essentiellement ceux de H5. Nous pourrions donc traiter 
ce problème en utilisant le formalisme des perturbations de la mécanique quantique, perturbations 
dépendant du temps par l’intermédiaire de l’onde incidente. Plutôt que d'utiliser ce formalisme général, 
nous allons établir très simplement la forme de l’évolution de l’état atomique. Nous ferons pour cela, 
avant d’aller plus loin, deux approximations supplémentaires. 

Si A est du premier ordre dans la perturbation que nous apportons à H5, le dernier terme, propor- 
tionnel à Aĉ, est du second ordre. Pour une intensité incidente suffisamment faible, il sera négligeable 
par rapport aux termes du premier ordre. En pratique, ce terme ne devient important que pour des 
intensités incidentes énormes, pour lesquelles le champ de l’onde est de l’ordre du champ de liaison. La 
seconde approximation est dite “approximation dipolaire”. Tel que nous l’avons écrit, H est difficile 
à traiter en raison de la non-commutation de P et de A. Notre problème est surtout intéressant 
pour traiter la diffusion d’une onde de fréquence voisine des transitions atomiques intenses, c’est à 
dire pour une onde dans le domaine visible. La longueur d’onde incidente, de l’ordre du micron, est 
alors beaucoup plus grande que la taille de l’atome. En première approximation, on peut assimiler 
le potentiel vecteur à sa valeur à l’origine, A(0). Cette approximation revient à ne tenir compte que 
du premier terme, dipolaire, dans le développement multipolaire de l’interaction de l’atome avec le 
champ. Avec cette approximation, le potentiel vecteur devient un simple nombre, indépendant de 
l’opérateur position. Il commute donc avec l’impulsion. On peut, avec ces deux approximations, très 
largement vérifiées en pratique, réécrire le Hamiltonien total sous la forme: 


H = Ho — 1p - A(0) . (3.44) 


En injectant finalement l'expression du potentiel vecteur de londe incidente, dont on prendra 
garde de ne garder que la partie réelle (il convient de n’utiliser que les champs physiques dans les 
Hamiltonien), on trouve: 


avec 


E 
H; = TP, sin(wt) . (3.46) 
MW 
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Equations d’évolution des populations 


Munis du Hamiltonien, nous allons maintenant calculer l’évolution temporelle de l’état atomique. De 
manière évidente, cet état peut s’écrire comme une superposition des états propres |i) du Hamiltonien 
non perturbé (ces états forment une base de l’espace de Hilbert). On écrira donc: 


t0) = > alli) , (3.47) 


où la somme est à étendre à tous les états propres de Ho (y compris les états du continuum) et où 
les a; sont des amplitudes de probabilité complexes dépendant du temps. En portant directement ce 
développement dans l’équation de Schrödinger: 

… 0|E) 


on trouve: d E 
; di. 7 qo š : 

ih ò — li) = aEjli) + — y P,sin(wt)a;li) . 3.49 

DO = EE) + EEY Pasinto ali (3.49) 

Pour obtenir un système d'équations différentielles ordinaires, nous multiplierons scalairement les deux 
membres de cette équation par le “bra” (j| où j est un niveau stationnaire arbitraire de l’atome non 


perturbé. En utilisant le fait que les états propres de Ho sont orthogonaux, c’est à dire que 


Gli) = dji, gan 
on obtient, pour tout j, 
aj | E ; ; ; 
T = —iwjaj + imah D UP sin(wt) , (3.51) 


où nous avons posé wj = E;j/h. 

Nous pouvons simplifier un peu les écritures par un changement de variable. Le premier terme 
du second membre dans cette équation décrit l’évolution libre du coefficient a; à la fréquence w;. On 
peut s’en affranchir en posant: 

sise 
Deere: (3.52) 


Ce changement de variable est en fait simplement un passage en représentation d’interaction par 
rapport au Hamiltonien non perturbé Ho. On obtient simplement alors l’équation d'évolution des b;: 
db; E qE 
dt imwħ 


XC (GIP. li) sin(wt)e tbt) , (3.53) 
(3 

où wji = wj — wi est la fréquence de Bohr de la transition de à vers j. Notons que cette quantité, 

algébrique, peut être négative. 

Nous avons donc transformé l’équation de Schrödinger en un système différentiel ordinaire (les 
éléments de matrice (j|P,li) sont a priori facilement calculables). Il n’en reste pas moins que ce 
système comporte une infinité d'équations et qu’il n’est pas abordable dans le cas général. Nous 
pourrons aborder le problème dans deux situations limites seulement. 


Diffusion non résonante 


Nous considérerons ici la diffusion d’une onde non résonnante par un atome initialement dans son 
état fondamental g. Par non résonnante, nous désignons une onde dont la fréquence est très différente 
de toutes les fréquences de Bohr des transitions “autorisées” (telles que l’élément de matrice (g| Pli} 
soit non nul) partant de l’état g. Il conviendra aussi que son amplitude ne soit pas trop grande. Il 
est relativement naturel de considérer que cette perturbation non résonnante n’a qu’une très faible 
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probabilité d’exciter l’atome, c’est-à-dire de le transférer vers un état autre que g. Cela signifie que 

pratiquement toutes les amplitudes b; restent petites (au moins du premier ordre dans l’amplitude de 

la perturbation, mesurée par Fo), sauf bg qui est voisine de 1. Dans le second membre du système 

d'équations (3.51), le produit d’amplitudes du premier ordre par un terme lui aussi proportionnel à 

Eo donne un terme négligeable du second ordre. Seul contribue à cette somme le niveau g. 
L'évolution de b; pour j £ g s'écrit alors: 


db; = qE 
dt imwħ 


(lP:1g) sin(wt)e vis, (3.54) 


équation différentielle ordinaire qui s’intégre trivialement avec la condition initiale b;(0) = ôjg. On 


trouve: : ; 
iwt ewigt et _ 


k —iWijgt 
ijlP.|g}e “ist Ee — Se : (3.55) 


hos qEo 
J wW F Wig Wjg TW 


— 2mwħ 


A partir de cette expression des bj, nous pouvons facilement calculer le dipôle moyen (D) = 
(Y()IDIY(E)) avec |Y) = |g) + X; bj(t) exp(—iwzt)|j) (on remarquera que la norme de cet état n’est 
un qu’au premier ordre dans les bj ce qui est conforme avec nos approximations). Après quelques 
manipulations algébriques sans intérêt, on trouve: 


2 
E PER a A GIE.le) = 


iwt _ —iwjgt —iwt _ p—iwjgt 
; £ S En E (3.56) 
2mwħ | 
#9 


wW + Wig Wjg TW 


Dans cette expression, apparaissent comme fréquences d'évolution la fréquence de l’onde incidente 
et la fréquence de Bohr de g vers j. Physiquement, nous pouvions nous attendre à ce que l’atome ne 
réponde qu’à la fréquence à laquelle il est forcé. En fait, la partie oscillant avec la fréquence de Bohr 
provient de deux imperfections du modèle. D’abord, nous avons supposé que le branchement de l’onde 
plane excitatrice intervenait instantanément à l’instant origine. Le spectre de la perturbation contient 
donc toutes les fréquences, en plus de la fréquence propre w. Dans ce spectre, se trouvent en particulier 
les fréquences de Bohr, capables d’exciter de façon résonnante les transitions atomiques et de provoquer 
une réponse transitoire de l’atome. Comme nous avons également négligé tout amortissement, cette 
réponse transitoire s'étend indéfiniment dans le temps et contamine notre solution. On aurait tout 
à fait le même genre de comportement, comme on pourra s’en convaincre facilement, en branchant 
instantanément une perturbation non résonnante sur un oscillateur non amorti. Clairement, cette 
partie de la solution n’est pas physique. D’une part, la perturbation n’est jamais appliquée de façon 
soudaine (une prise en compte réaliste d’un branchement adiabatique de la perturbation réduirait 
considérablement le poids des fréquences de Bohr dans la solution). D’autre part, et surtout, nous 
n'avons introduit aucun amortissement dans notre problème. Il est clair que l'excitation des niveaux 
due au branchement soudain ne pourra pas durer plus longtemps que la durée de vie de ces niveaux 
si on prenait en compte l’émission spontanée. Nous ne pouvons tenir compte de façon convaincante 
de cet amortissement mais nous pouvons au moins supprimer dans l’expression du dipôle moyen les 
termes non physiques aux fréquences de Bohr. Nous aurons donc finalement: 


iwt e —iwt 


2 
q Eo | Fe e 
D) — X Z P. ——— — ———— | +ec.? . 3.57 
(D) onu F2 1j) (31 P:19) De. eo C.C ( ) 


Notons ici un autre effet de l’absence d'amortissement. Les dénominateurs apparaissant dans cette 
expression présentent un comportement résonnant quand la fréquence excitatrice coïncide, au signe 
près, avec une des fréquences de Bohr. Dans ce cas, le dipôle moyen diverge, ce qui n’est pas physique. 
Il nous faut bien garder en mémoire que cette expression n’est valable que tant que les b; restent petits, 
c’est à dire pour de petits dipôles moyens, loin de résonance et avec des ondes incidentes d'amplitude 
modérée. 
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Le produit d'éléments de matrice (g|z|1)(1|P.1g) est assez désagréable. Nous allons le transformer 
quelque peu. Nous pouvons en effet écrire, en utilisant les règles standard de commutation entre R et 
une fonction de P: 


ap (3.58) 


[Z, Ho] => | o. 


(notons que V commute avec R et que les composantes x et y de P commutent avec Z). On en déduit 
immédiatement: 


(LP-l) = zz lZHo — HoZ|g) = ws; (12l) (3.59) 
En reportant cette expression dans celle du dipôle moyen, on obtient: 


gd E0 iwt e wt 


2h 


W F Wjg Wjg — W 


(D) = -u | (1219) + ee. (3.60) 


Nous pouvons alors, pour faire le lien avec le modèle classique du paragraphe précédent, introduire 
une polarisabilité atomique “quantique” à la fréquence w, ay(w), définie par: 


D — €oagEoU; $ (3.61) 


En ne faisant apparaître que des parties réelles dans l’expression du dipôle, on a 
Z 3.62 
Er er (i1Zl)P (3.62) 


(remarquons que la restriction j # g dans la sommation a pu être éliminée, la moyenne de Z étant 
nulle dans le niveau g). Si nous rapprochons cette expression de la polarisabilité classique, déduite du 
modèle de Thomson de l’électron élastiquement lié de fréquence propre wo: 


@ 1 
2% 2 


D 3.63 
MEg we -w ( ) 


aclw, wo) = 


on voit que la polarisabilité quantique peut se mettre sous la forme d’une somme pondérée de polar- 
isabilités classiques pour des oscillateurs chargés aux différentes fréquences de Bohr: 


w) =” fjgac(w, wg) , (3.64) 
J 


où nous définissons la “force d’oscillateur” de la transition de g vers j, fjg par: 


2MWjg 


h 


. 2 
is = IGIZlo (3.65) 
Les forces d’oscillateur sont évidemment des quantités réelles, positives et sans dimension. On 
peut facilement aussi établir que la somme de toutes les forces d’oscillateur depuis le niveau g est 
égale à 1 (règle de Reich-Thomas-Kuhn). Pour cela, on remarque que: 


2mw ;9 


z IIZI lo) . (3-66) 


figs = 


En utilisant alors l'équation (3.59) établie plus haut, nous pouvons mettre la force d’oscillateur sous 
la forme: 


fja = 5 (IlL) - (3.67) 
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La relation de fermeture `; |j) (j| = 1 donne: 
2 
din = = Z ZP; l9) = —(glP:Z19) , (3.68) 
cette quantité, réelle, étant évidemment e à son complexe conjugué. On a donc finalement: 


di = E zg lP: - P,21g)) = (3.69) 


L'interprétation physique de a de la polarisabilité quantique est donc transparente. Tout 
se passe comme si l’atome quantique était remplacé par une collection d’oscillateurs harmoniques, sans 
amortissement, chacun résonnant à une des fréquences de Bohr correspondant à toutes les transitions 
partant du niveau g. Chacun de ces oscillateurs contribue proportionnellement à sa force d’oscillateur. 
Celle-ci est nulle si l'élément de matrice de Z est nul. Les transitions de force d’oscillateur nulle sont 
dites “interdites”. Dans beaucoup de cas, une des transitions originaires du niveau g porte l'essentiel 
de la force d’oscillateur. C’est par exemple le cas de la raie de résonance des alcalins, telle que la 
célèbre raie jaune du sodium, (qui est en fait un doublet en raison de la structure fine) qui rassemble 
presque toute la force d’oscillateur. Dans un tel cas, l’atome, pour ce qui est de la diffusion non 
résonnante, se comporte essentiellement comme un oscillateur chargé unique. Le modèle de Thomson 
est donc beaucoup plus réaliste que ne le laisse supposer sa simplicité. Ce que nous venons d'aborder 
dans le cadre d’une théorie atomique très simplifiée peut être généralisé à des systèmes quantiques 
plus complexes, comme des molécules. On peut tout à fait donner encore un sens à la notion de force 
d’oscillateur. C’est même le cas pour des systèmes macroscopiques, comme les systèmes excitoniques 
dans les semi-conducteurs. 

Toutes les discussions du chapitre précédent sur les différents régimes de diffusion sont donc in- 
changées, à condition de tenir compte de toutes les transitions autorisées. On peut donc s’interroger 
sur la validité des approximations “haute fréquence” et “basse fréquence” en présence d’une infinité de 
raies de résonance. Le régime basse fréquence, de Rayleigh, correspond pour un atome à des fréquences 
incidentes plus petites que celles de la transition optique de plus basse énergie. Il peut exister des 
transitions d'énergie encore plus basse, entre niveaux hyperfins du fondamental, par exemple, mais 
elles ne correspondent pas à des transitions dipolaires électriques. La dépendance en w;, de la force 
d’oscillateur diminue également considérablement l’influence des transitions de très basse fréquence. 
Pour le régime haute fréquence, diffusion Thomson, le problème est a priori plus difficile. Il existe 
toujours une transition résonnante du fondamental vers le continuum, quelle que soit la fréquence 
incidente. On peut se rassurer en remarquant que les forces d’oscillateur associées à ces transitions 
sont extrêmement faibles. En effet, la fonction d’onde d’un électron libre d'énergie élevée est une 
onde quasi-plane de très courte longueur d’onde qui a un très mauvais recouvrement avec la fonction 
d’onde du fondamental, à symétrie sphérique et d’extension de l’ordre de ag. On peut donc donner 
un sens au régime de diffusion de Thomson dès que la fréquence incidente est beaucoup plus grande 
que la fréquence nécessaire pour ioniser l’atome. 

Entre les régimes de Thomson et de Rayleigh, on entre dans le domaine de la diffusion résonnante, 
que nous ne pouvons traiter avec ce modèle où on suppose constante la population du niveau g. La 
perturbation résonnante induira en effet des transitions entre les niveaux atomiques. 


Interaction résonnante 


Nous pourrons traiter, sans recourir à un modèle plus complet, le cas très particulier où l’onde incidente 
est strictement résonnante avec une transition atomique particulière, du niveau g vers le niveau j. On 


TEn fait, elles contribuent à la polarisabilité à un ordre plus élevé dans le développement multipolaire. Une transition 
interdite pour le rayonnement dipolaire électrique peut, par exemple, être autorisée pour le rayonnement quadripolaire. 
Comme nous l’avons vu dans les chapitres précédents, le rayonnement dipolaire est de loin le plus intense. La diffusion 
par un atome est donc en général largement dominée par les transitions dipolaires. 


272 CHAPITRE 3. SOURCES ATOMIQUES DE RAYONNEMENT 


peut en effet supposer, comme l’onde incidente est non résonnante sur toutes les autres transitions 
(nous négligerons ici les problèmes liés à une éventuelle dégénérescence de deux niveaux) que seuls 
les niveaux j et g sont notablement peuplés, les autres étant essentiellement vides. Le système infini 
(3.53) est donc remplacé par un système de deux équations à deux inconnues, facilement résolu. On 
a en effet 


db; qEo 


F7 = a (j|P,|g) sin wtewistp, 
db qEo x Si 
E Dre (glP.|j) sinwte™™ stb; . (3.70) 


En utilisant le lien entre éléments de matrice de P, et de Z (équation (3.59)), on peut faire apparaître 
dans les équations précédentes l’élément de matrice dipolaire: 


; q ; 

d= q(Ül21g) = z GlPelg) - (3.71) 
On peut remarque aussi qu’il intervient le produit de sinwt par ejst, Pour Wjg = w (Cest 
à dire à résonance), ce produit, en développant le sinus, fait intervenir la somme de deux termes, 
l’un constant et l’autre oscillant à 2w. Si l’évolution des b est suffisamment lente, ce qui doit être 
le cas puisque nous sommes en représentation d'interaction par rapport aux énergies atomiques, on 
peut faire ce que les astronomes appellent une approximation séculaire. On néglige l’influence du 
terme rapide, en remarquant qu’il se moyenne à zéro en un temps court par rapport aux temps 
caractéristiques d'évolution des populations. En physique atomique, cette approximation porte le 
nom “d’approximation de l’onde tournante”. En posant alors 


dE 
Q = — 3.72 
ħ 1 ( ) 
on met le système différentiel sous la forme: 
db; Q db, Q 
HO a g 
dont la solution, assortie de la condition initiale bọ = 1; bj = 0 est évidemment: 
Q Q 
bg = cos 5° bj = sin 3? : (3.74) 


Les amplitudes de probabilité oscillent simplement en fonction du temps entre 0 et 1. Si nous calculons 
par exemple la probabilité de trouver l’atome dans l’état j, qui est proportionnelle à l’énergie atomique 
moyenne, nous trouverons: 


1 
Pj= z0 — cos Qt) . (3.75) 


Cette oscillation régulière entre les deux niveaux porte le nom “d’oscillation de Rabi”, en l’honneur 
de Rabi qui la mit en évidence pour la première fois dans des expériences de résonance micro-onde 
sur des spins atomiques. La fréquence Q est donc nommée “fréquence de Rabi”. 

À partir de cette expression des amplitudes de probabilité, il est aisé de calculer le dipôle électrique 
moyen. Il est évidemment égal à 24Re (cos Lt sin Lt exp iwt). A des coefficients numériques près, le 
dipôle est donc proportionnel à sin Qt coswt. Le dipôle moyen évolue donc à deux fréquences: 


wQ. (3.76) 


Notons que, pour les amplitudes incidentes où ce modèle est réaliste, on a toujours w > Q. Le spectre 
de la lumière émise par l’atome consiste donc en deux raies, symétriquement disposées par rapport à la 
fréquence atomique “nue”. On peut comprendre aisément ce spectre en termes de “bandes latérales”. 


3.2. MODÈLE SEMI-CLASSIQUE 273 


Le dipôle atomique, oscillant naturellement à la fréquence w, est modulé en amplitude à la fréquence 
Q. Dans le modèle simple que nous traitons ici, cette modulation est complète. On sait bien que le 
spectre est alors composé de deux bandes latérales à w + Q (dans le cas d’une modulation partielle, il 
demeure une composante à la fréquence de la “porteuse” w). En fait, nous savons que notre modèle 
est incomplet. Il ne tient pas compte de l’émission spontanée. Quand on l’inclut correctement, on 
constate que le spectre contient une troisième composante à la fréquence atomique w dont l'amplitude 
est double de celles des “bandes latérales” précédentes. Le spectre du rayonnement d’un atome unique 
doit donc être constitué de trois raies, le célèbre “triplet de Mollow”. Ce triplet peut facilement être 
mis en évidence en irradiant un échantillon atomique par un laser. Il faut en effet que la fréquence 
de Rabi, Q, soit grande par rapport à la largeur des raies spectrales, déterminées par la durée de vie 
radiative du niveau excité ou des effets parasites comme l'effet Doppler dû à l'agitation thermique. 
Cela impose l’utilisation de lasers largement saturants, au sens où nous avons défini la saturation pour 
la diffusion résonnante dans le modèle classique. De nombreux effets intéressants d'optique quantique 
sont liés à ce régime d’oscillation de Rabi et “d'habillage” de l’atome par le champ d’un laser intense. 


Notre modèle serait aussi insuffisant pour décrire l’oscillation de Rabi dans un très petit champ. 
Si celui ci ne contient que quelques photons, la quantification de l’énergie et donc de l’amplitude 
doit entrer en ligne de compte. Au lieu d’une fréquence de Rabi unique, variant continûment avec 
l’amplitude classique du champ électromagnétique, on peut s’attendre à ce que l’oscillation s'effectue 
à des fréquences discrètes, correspondant aux différents nombres de photons présents dans le champ. 

Dans la plupart des situations ordinaires de couplage d’un atome à un champ laser, cette quan- 
tification de la fréquence de Rabi passe complètement inaperçue. Pour que l’oscillation s’effectue plus 
rapidement que n’agissent les différentes causes de relaxation, il faut en effet que le champ contienne un 
nombre énorme de photons, très rapidement renouvelés. La différence entre deux nombres de photons 
consécutifs est si petite par rapport à ces nombres que l’oscillation de Rabi apparaît encore comme 
une sinusoïde, avec une fréquence proportionnelle à l'amplitude moyenne du champ électromagnétique, 
variant continûment. Pour observer la quantification, il faut se placer dans des conditions très par- 
ticulières où un atome est fortement couplé au champ de quelques photons seulement (en d’autres 
termes, telles que l'intensité de saturation de la transition atomique soit de l’ordre du photon). Il faut 
de plus que le nombre de photons reste bien constant pendant toute la durée de l’oscillation. 

On peut réaliser ce genre de situation dans le contexte de ce qu’il est maintenant convenu d’appeler 
“l’électrodynamique quantique en cavité”. Un atome, très fortement couplé au rayonnement, est placé 
dans une cavité résonnante de haute surtension. L’atome est par exemple un “état de Rydberg 
circulaire” (voir l’annexe de la partie I sur le modèle de Bohr). Il se comporte comme une antenne 
géante pour le rayonnement millimétrique. De plus, la durée de vie de ces niveaux circulaires, en 
dépit de leur caractère exotique, est très longue. Enfin, on peut détecter ces atomes de manière 
sélective et sensible. L’atome, préparé dans un jet atomique, traverse une cavité résonnante sur une 
transition vers le niveau circulaire immédiatement inférieur. La transition étant dans le domaine des 
longueurs d’onde millimétriques, on peut avoir une cavité d'excellente qualité en utilisant des miroirs 
supraconducteurs. La cavité joue alors le rôle d’une “boîte à photons” conservant le champ pendant un 
temps beaucoup plus long que le temps de transit de l’atome à travers la cavité. Dans ces conditions, 
on peut réaliser une situation de “couplage fort”, où toute dissipation est négligeable par rapport 
au couplage de l’atome avec la cavité et où le champ d’un seul photon est suffisant pour saturer la 
transition atomique. Notons que l'expérience doit s’effectuer à très basse température (moins de 1K) 
pour que le rayonnement du corps noir, particulièrement important dans le domaine millimétrique, ne 
remplisse pas la cavité. 

L'énergie d’un champ de n photons à la fréquence w étant nħw, les amplitudes autorisées du champ 
dans la cavité et donc les fréquences de Rabi possibles, doivent être proportionnelles aux racines carrées 
successives des entiers. Un calcul complètement quantique du couplage d’un atome à deux niveaux 
avec un seul mode du champ électromagnétique confirme tout à fait cette approche intuitive. Ce 
qui est moins intuitif a priori, c’est que l’expression de la fréquence de Rabi dans le champ de n 
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photons est Qyn + 1. Elle est non nulle même si la cavité est vide. En fait, l’oscillation qu’on observe 
quand l’atome entre dans une cavité vide est ce qui reste, dans ces conditions très exceptionnelles, de 
l'émission spontanée. L’atome excité émet un photon dans la cavité. Si cette émission se produisait 
dans l’espace libre, le photon s’échapperait à la vitesse de la lumière et l’atome resterait dans le niveau 
inférieur de la transition. Dans la cavité, en revanche, le photon reste piégé au voisinage de l’atome, 
prêt à être réabsorbé, puis réémis.. Dans une telle cavité, l'émission spontanée devient un phénomène 
réversible, oscillatoire! 


Dans un champ quantique ordinaire, tel que celui produit par une source classique (mettant en jeu 
des courants oscillants macroscopiques) faiblement couplée à la cavité , le nombre de photons n’est 
pas parfaitement défini. Il obéit en fait à une statistique de Poisson, avec une variance de l’ordre de 
la valeur moyenne. On montre alors que l’oscillation de Rabi s'effectue simultanément à toutes les 
fréquences correspondant aux nombres de photons présents dans cette distribution statistique, chaque 
fréquence apparaissant dans la transformée de Fourier du signal avec un poids égal à la probabilité 
p(n) du nombre de photons. 


Les résultats d’une expérience récente® réalisée selon ce principe sont présentés sur la figure 3.3. 
La première colonne présente les signaux d’oscillations de Rabi observés en fonction du temps. La 
courbe du haut correspond à une cavité vide. On y observe l'émission spontanée oscillante. Les 
courbes suivantes correspondent à des champs d'amplitude moyenne croissante dans la cavité. On 
observe bien que le signal n’est plus du tout sinusoïdal. Il présente une structure complexe, avec des 
phases de latence et de renaissance des oscillations, qu'aucun modèle semi-classique ne permet de 
comprendre. La deuxième colonne présente les transformées de Fourier de ces signaux. Pour la cavité 
vide, on observe une fréquence pure, Q/2r = 47 kHz, correspondant bien aux prédictions théoriques 
pour l’émission spontanée oscillante. Quand un champ est injecté dans la cavité, on observe des pics 
discrets dans cette transformée de Fourier dont les positions s’échelonnent bien comme les racines 
carrées des entiers successifs. 


L’atome, dans cette expérience, est en quelque sorte une sonde qui mesure l’amplitude du champ 
électromagnétique. Les fréquences discrètes observées dans le spectre du signal de Rabi sont donc 
une preuve très directe de la quantification de l’amplitude et donc de l’énergie, du champ dans une 
cavité. Il y eut, depuis le début du siècle, de nombreuses preuves de la quantification du champ 
électromagnétique. L'émission spontanée, l'effet Compton, le déplacement de Lamb sont les plus anci- 
ennes. Tout le développement de l’optique quantique moderne, où l’on peut manipuler les fluctuations 
quantiques des champs, repose sur cette notion et la confirme avec éclat. Cependant, la manifestation 
la plus simple de la quantification du rayonnement, l’aspect discret de l’énergie dans une “boîte à pho- 
tons” avait toujours échappé à l’expérience”. Il fallait en effet disposer d’un détecteur très particulier 
pour révéler ce comportement. 


Notons enfin, dans la figure 3.3 la troisième colonne, qui présente les poids des différentes com- 
posantes de fréquences et donc les probabilités des nombres de photons correspondant. Elles s'accordent 
très bien avec la loi de Poisson attendue. Cela permet de déterminer avec précision le nombre moyen 
de photons dans la cavité. 


8M. Brune, F. Schmidt-Kaler, A. Maali, J. Dreyer, E. Hagley, J.M. Raimond, S. Haroche, Phys. Rev. Lett. 76,1800 
(1996): “Quantum Rabi oscillation: a direct test of field quantization in a cavity”. On pourra aussi consulter, sur les 
principes généraux de l’électrodynamique en cavité S. Haroche, J.M. Raimond, Scientific American, Avril 1993: “Cavity 
Quantum Electrodynamics”; Traduction française dans “Pour la Science”, Juin 1993: “Electrodynamique Quantique 
en Cavité”; Réimprimé dans le numéro spécial “La physique Quantique”, Pour la Science, Juin 1994. On pourra enfin 
consulter, pour des expériences plus récentes S. Haroche, J.M. Raimond et M. Brune, la Recherche, Sept. 1997. 

Les “clics” discrets d’un détecteur fondé sur l'effet photoélectrique ne sont pas une preuve absolue de la quantification 
du rayonnement. Dès 1926, à l’aube de la mécanique quantique moderne, Dirac et Wentzel ont montré que toutes les 
caractéristiques de leffet photoélectrique pouvaient s’obtenir en couplant un champ classique à un détecteur quantifié 
(un atome par exemple). Einstein lui même considérait l’effet photoélectrique comme une conséquence importante de la 
notion de photon mais il avait fondé sa preuve de la quantification de l’énergie du champ sur des notions beaucoup plus 
fondamentales. 


3.2. MODÈLE SEMI-CLASSIQUE 275 


1.0 E 
0.5 L 


0.0 L 
1.0 L 


0.5 L 


0.0 L 
1.0 L 


e to g transfer rate 
FFT Amplitude 


0.0 L 
1.0 L 


0.5 L 


0.0 


0 30 60 90 0 50 100 150 0 1 2 3 4 5 
Time (us) Frequency (kHz) n 


Figure 3.3: La première colonne présente les signaux d’oscillation de Rabi quantique obtenus en couplant un atome de 
Rydberg circulaire à une cavité millimétrique supraconductrice contenant un champ de quelques photons (l’amplitude 
moyenne de ce champ est croissante de haut en bas, la cavité est vide pour la courbe du haut). La deuxième colonne 
présente les transformées de Fourier de ces signaux, faisant clairement apparaître la quantification de l’amplitude du 
champ. Enfin, la troisième colonne présente les poids des composantes de fréquence ou des nombres de photons, obéissant 
à une loi de Poisson. Les nombres moyens de photons ( 0.40 (+0.02), 0.85 (+0.04) et 1.77 (+0.15) pour les trois lignes 
du bas) s’en déduisent. Pour la ligne supérieure, on observe un petit nombre de photons moyen (0.06) qui correspond 


au champ thermique résiduel dans la cavité à la température de l’expérience. 
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3.3 Diffusion par un milieu dense 


Nous nous attacherons dans ce paragraphe au calcul du champ et de l'intensité diffusés par une 
assemblée d’atomes, ou plus généralement de centres diffuseurs. Chacun de ces centres sera, dans ce 
problème, entièrement défini par sa polarisabilité. Nos calculs pourront donc s’appliquer à une très 
grande variété de centres diffuseurs et, en particulier, aux atomes classiques ou semi-classiques traités 
dans les paragraphes précédents. 

Nous essaierons en particulier de comprendre un apparent paradoxe. Nous avons vu en effet, dans 
le paragraphe sur la diffusion Rayleigh, que les atomes devaient efficacement diffuser un rayonnement 
incident, d’autant plus efficacement que la fréquence est élevée. Nous avons expliqué ainsi la diffusion 
du rayonnement bleu par le ciel. On peut cependant a priori s'étonner de ce que la diffusion par ce 
milieu, relativement peu dense, soit beaucoup plus efficace que la diffusion par un milieu transparent 
solide, contenant un nombre beaucoup plus grand de centres diffuseurs. Nous avons en effet montré 
que la longueur d’extinction typique (la longueur sur laquelle le rayonnement incident est notablement 
affaibli) est de quelques dizaines de kilomètres pour l’atmosphère. Pour des fibres optiques de haute 
qualité, la longueur d’atténuation est sensiblement plus grande, alors que la densité du milieu est au 
moins mille fois plus élevée. Il semble donc qu’un milieu dense à l’échelle de À ne diffuse de manière 
particulièrement peu efficace. Nous essaierons aussi de comprendre pourquoi les cristaux, éclairés par 
une longueur d’onde de l’ordre de la maille cristalline, ne diffusent que dans des directions privilégiées 
et comment ces directions sont reliées aux paramètres du réseau cristallin. 

Pour obtenir ces résultats nous ferons dans ce chapitre un certain nombre d’approximations. Elles 
seront détaillées dans le prochain paragraphe. Notons dès maintenant que nous ne traiterons que de la 
diffusion par un milieu statique. Un milieu où les centres diffuseurs se déplacent, même éclairé par une 
onde monochromatique, ne diffuse pas uniquement à la fréquence incidente en raison de l’effet Doppler. 
Pour traiter ce cas en détails, il nous faudrait des outils d'analyse d’un champ non monochromatique 
(fonctions de corrélation en particulier) qui ne seront pas introduites dans ce cours. Nous indiquerons 
brièvement à la fin du chapitre comment nos résultats seraient qualitativement modifiés dans ce cas. 
Nous donnerons une application importante à la diffusion par un milieu dépendant du temps avec la 
diffusion Brillouin (diffusion d’une onde électromagnétique par une onde sonore). 


3.3.1 Notations. Champ diffusé. 


Nous considérons donc un milieu comprenant des centres diffuseurs, que nous appellerons “atomes”, 
localisés au voisinage de l’origine (voir figure 3.4). Les diffuseurs, en nombre total M, indicés par 
l'indice à, sont situés en r;. La polarisabilité de chaque diffuseur sera notée a;(w). Elle peut en effet 
dépendre de la fréquence du rayonnement incident. Dans presque tous les calculs, par la suite, on 
n’explicitera pas sa dépendance en w. On observe le rayonnement dans la direction n, définie par les 
angles d’Euler 0 et ©. L’observateur est à une distance R, très grande par rapport à la taille du milieu 
et par rapport à toutes les autres dimensions caractéristiques du problème. 


Le milieu est éclairé par une onde plane monochromatique, de fréquence w, se propageant selon 
Oz, polarisée selon Ox et d'amplitude Eo. On pourrait traiter le cas d’une polarisation incidente 
arbitraire en utilisant le principe de superposition. On pourrait traiter également le cas d’une onde 
de comportement temporel quelconque en la décomposant en composantes de Fourier. On posera 
ko = ku,, avec k = w/c et Eo = Epuz.On supposera que tous les centres diffuseurs sont soumis à 
l’onde incidente non modifiée. On suppose donc que la diffusion n’atténue pas londe incidente, c’est à 
dire que le milieu diffuseur n’est pas trop dense (c’est bien sûr une densité de polarisabilité qui importe 
ici). Nous supposerons également que la diffusion multiple est négligeable. Nous ne tiendrons donc 
pas compte, dans le calcul des dipôles induits, des champs rayonnés par les autres dipôles. Là encore, 
il s’agit d’une approximation de faible densité. 
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Figure 3.4: Notations pour la diffusion par un milieu matériel 
L’onde incidente “vue” par l’atome i peut donc s'écrire: 
Poe ose). (3.77) 
L’atome i prend donc un dipôle électrique égal à: 

d; = eoa; Eget rme) (3.78) 


En utilisant les résultats sur le champ du dipôle, on peut écrire le champ rayonné par l’atome i au 
niveau de l’observateur (le vecteur joignant l'atome à l'observateur est évidemment Rn — r;) comme: 


1 eklRn-ril w2 


= Da (nx Eo) xn. (3.79) 
a e) 


E; 
Pour aller plus loin, nous allons utiliser le fait que la distance d’observation est très grande: R > |r;|. 
Nous allons donc, comme nous l’avons déjà fait souvent, traiter, dans le terme d’onde sphérique, le 
dénominateur d'amplitude à l’ordre zéro en R/|r;| et le terme de phase à l’ordre 1. On a: 


[Rn-r;;=R-nr;, (3.80) 
et donc: 7 
1 | ; 
= -i Z ajel lko-k ri) it (n x Eo) xn, (3.81) 
où l’on a posé: 
k = kn. (3.82) 


On peut finalement mettre ce résultat sous la forme: 
E; = eqoe "A", (3.83) 


avec 


q=k-ko. (3.84) 
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q apparaît donc comme la variation de vecteur d’onde entre l’onde incidente et l’onde diffusée. Il définit 
bien sûr complètement la direction d'observation. A un facteur À près, q est aussi la différence de 
quantité de mouvement entre les photons incidents et les photons diffusés. Notons que dans beaucoup 
d’autres cas (collisions de particules..), les amplitudes de diffusion s’expriment simplement à partir de 
ce transfert d'impulsion. On a aussi posé 


1 ekR w2 
m Re 
Notons à ce point que eq est indépendant du diffuseur et de sa position. Il s’agit donc d’une donnée 
simple de la géométrie de la diffusion. Elle contient toute la dépendance angulaire du diagramme 
de rayonnement du dipôle. Elle s’annule en particulier pour une direction d’observation selon Ox. 


Tous les dipôles sont polarisés selon Ox et ne sauraient donc rayonner dans cette direction. eq peut 
s'exprimer simplement en fonction des angles d’Euler de la direction d'observation: 


ea e “(nxE)xn. (3.85) 


Er —iwt . 2 2 
sr mu Eo(1 — sin” 0 cos” œ) . (3.86) 
Pour comparer ce résultat avec celui que nous avions établi dans le paragraphe sur le rayonnement 
du dipôle, on prendra garde que le dipôle est ici aligné avec l’axe Ox, alors que les angles d’Euler sont 
relatifs à laxe Oz, direction de propagation de l’onde incidente. 

Le champ total rayonné par le milieu résulte de l’addition cohérente des champs diffusés par tous 


les centres 


Ed 


E=) E;. (3.87) 


On peut passer facilement de cette somme discrète à une intégrale continue sur le volume V du milieu 
en introduisant une densité de polarisation. En fait, nous poserons: 


me I Y aile- r:) . (3.88) 


Nous verrons en effet dans la prochaine partie que l’indice de réfraction d’un milieu suffisamment peu 
dense (au sens de la polarisation) est l’unité plus le demi produit de la polarisabilité atomique par 
la densité numérique du milieu (le résultat est évidemment sans dimension). Comme notre milieu 
est supposé faiblement diffusant, ôn apparaît clairement relié à l’écart à un de l'indice de réfraction. 
Notons toutefois que lindice habituel n’a de sens que si on moyenne les densités de polarisation 
atomique à une échelle grande par rapport à la distance moyenne entre atomes et petite devant 
À. Nous n’avons pas réalisé ce moyennage ici, et n est une quantité tenant compte de la position 
individuelle de tous les atomes. 

Avec ces notations, nous obtenons le résultat central de ce chapitre: le champ total diffusé dans 
la direction définie par q, se met sous la forme: 


E(q) = 2e4 Î ôn(r)e t" dr . (3.89) 


Nous n’indiquons pas les bornes de l'intégrale, ôn étant nul en dehors du volume V du milieu. Les 
propriétés de la diffusion sont donc décrites par la transformée de Fourier de la distribution d’indice 
du milieu. Ce résultat n’est pas sans évoquer la diffraction de Fraunhofer. La différence essentielle est 
que nous traitons ici de sources réelles réparties en volume et non des sources fictives du principe de 
Huygens, réparties sur la surface d’une ouverture. 

Dans la suite, nous utiliserons surtout cette expression du champ diffusé. On peut noter toutefois 
qu’il est possible d'exprimer simplement l’intensité totale diffusée dans la direction q. La structure de 
l’onde à grande distance étant très voisine de celle d’une onde plane, on peut écrire en effet: 


o €oC 
2 


I E - E* = 2eocle4/? I ôn(r)e "4 dr Î ôn (r)i dr’. (3.90) 
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En posant r’ = r — p, le produit de transformées de Fourier peut se mettre sous la forme d’un produit 
de convolution: 


Taada Î En(r)ôn*(r — p)eiTP drdp . (3.91) 


On peut donc mettre finalement l'intensité diffusée sous la forme d’une transformée de Fourier inverse 
en p: 


I = 2eocleq|? J T(p}e TP dp , (3.92) 


où la fonction I (p) , définie par: 


T(p) = Î ET EL. (3.93) 


est la fonction d’autocorrélation spatiale de la répartition d’indice du milieu. L’intensité diffusée 
est donc la transformée de Fourier spatiale de la fonction d’autocorrélation de l’indice. Ce résultat 
se généralise aux milieux diffuseurs dépendant du temps. C’est alors la densité spectrale d'énergie 
diffusée qui est égale à la transformée de Fourier spatio-temporelle de la fonction de corrélation 
spatio-temporelle de l’indice. 


3.3.2 Cas d’un milieu homogène 


Considérons d’abord la diffusion par un milieu dense homogène, comme par exemple un verre trans- 
parent. Les distances moyennes entre centres diffuseurs, de l’ordre de Ångström, sont alors beaucoup 
plus petites que la longueur d’onde. On peut donc remplacer, dans la transformée de Fourier don- 
nant le champ diffusé, le terme ôn(r) par une constante à l’intérieur du volume V — nous justifierons 
rigoureusement ce remplacement dans le prochain paragraphe. Nous poserons n = 1 + ôn. Pour un 
milieu dense et homogène, n est effectivement l'indice de réfraction ordinaire 1°. 

Le champ diffusé s’écrit alors: 


E = 2ej(n — ) | e ar dr (3.94) 
V 


Dans la limite d’un volume infini, l'intégrale serait, à un facteur près, une fonction de Dirac ô(q). 
D’intégrale, ne portant que sur un volume fini, reste finie. Elle n’est toutefois non négligeable que 
dans un domaine étroit autour de q = 0 (dont l'extension en termes de vecteurs d’onde est de l’ordre 
de l'inverse des dimensions transverses du milieu — un résultat élémentaire de théorie de la diffraction). 
Pour q = 0, la valeur de l'intégrale est V. On peut donc écrire: 


ri a 1 Gi (3.95) 
V 


où ôy est une fonction très piquée au voisinage de l’origine, de valeur maximale 1. 

Le milieu homogène diffuse donc un champ proportionnel au volume, ou encore au nombre d’atomes 
N, seulement dans la direction initiale de l’onde incidente. Il n’y a donc pas, dans les milieux denses et 
homogènes, de diffusion dans des directions latérales. On comprend ainsi la très faible atténuation par 
diffusion dans les fibres optiques. La diffusion vers l'avant, cohérente avec l’onde incidente, interfère 
avec celle-ci. C’est de cette interférence que résulte l’onde se propageant finalement dans le milieu. 
Le calcul complet des caractéristiques de cette onde à partir de l’expression du champ diffusé est 
complexe. Nous verrons dans la prochaine partie comment établir rigoureusement et simplement ce 
résultat en utilisant la théorie de la réponse linéaire. Nous montrerons que l’onde totale est une onde 
plane se propageant avec un vecteur d’onde nko et une vitesse de phase c/n. D’indice de réfraction 
du milieu peut donc être compris comme résultant de la diffusion cohérente vers l’avant de tous les 
atomes du milieu. 


10La valeur constante de ôn étant bien sûr invariante dans les procédures de moyennage qui nous seront nécessaires 
pour définir l'indice de réfraction. 
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3.3.3 Diffusion par un cristal 


Considérons maintenant plus complètement le problème de la diffusion par une assemblée dense 
d’atomes immobiles. Nous allons supposer que ces atomes sont aux nœuds d’un réseau cristallin. 
Pour simplifier les calculs, nous prendrons un réseau cubique simple, les directions principales du 
cristal correspondant aux axes. La généralisation à d’autres orientations cristallines ou à d’autres 
types de réseaux cristallins ou quasi-cristallins ne pose que des problèmes algébriques. La position 
des atomes, supposés tous identiques, est donc définie par trois entiers, ng, ny et nz, avec: 


ri = a(NgUgr + NyUy + NU) , (3.96) 


où a est la maille cristalline. Nous noterons Ng, Ny et N, les nombres d’atomes dans les trois directions 
de l’espace (nous supposons donc que la forme globale du cristal est aussi un cube). On a évidemment 
N = NN N;. Pour ce problème, il est bien sûr avantageux d'utiliser l'expression du champ diffusé 
comme une somme discrète sur la position des atomes individuels: 


Beea Y eee (3.97) 


Ng, Ny, Nz 
Ce champ peut encore s’écrire en termes des composantes qr, qy et qz du transfert de vecteur d’onde: 
Nz Ny Nz 
E=ega| Y eimo) | 5 eame) | 55 ciena) (3.98) 
Nx=1l ny=1 nz=1l 


Les sommes de séries géométriques s’évaluent sans difficulté. A un facteur de phase sans intérêt 
près, 


Nz 5 qzNza 
: sın EE 
X ezna = - = . (3.99) 
sın <= 
Nx= 2 


Le champ diffusé est donc le produit de trois fonctions de diffraction simples portant sur les com- 
posantes de q. Les directions où l’intensité diffusée est maximale sont telles que, simultanément: 


x = a Pe dy = q PE qz = PEG ; (3.100) 


OÙ Pr, Py, Pz Sont trois entiers. Le champ diffusé n’est donc maximal que dans des directions discrètes 
pour lesquelles le vecteur d'onde q est sur un point d’un réseau cubique de maille 27/a. Ce réseau, 
qui est essentiellement le réseau obtenu par transformée de Fourier spatiale du réseau initial, est 
appelé réseau réciproque. Pour tout réseau cristallin, il existe un réseau réciproque. Ce n’est toutefois 
que dans le cas du réseau cubique simple que le réseau réciproque est géométriquement identique au 
réseau initial. Notons à ce point que l’amplitude du champ diffusé dans un de ces maximums est 
proportionnelle à N;N,N, = N. Il s’agit donc bien, comme dans le cas du milieu homogène, d’une 
diffusion cohérente où le champ est proportionnel au nombre d’atomes et l’intensité au carré de ce 
nombre. 

La géométrie de la diffusion est représentée sur la figure 3.5. Le vecteur q appartient au réseau 
réciproque. Les vecteurs d’onde incident et émergent, ko et k sont donc tels que leur différence est 
un point du réseau réciproque. Une solution est q = 0 correspondant à la diffusion vers l’avant. Elle 
est bien sûr toujours possible (quelle que soit la nature du réseau cristallin, évidemment). Les normes 
des vecteurs ko et k étant identiques (w/c), il n’existe pas nécessairement d’autre solution. Notons en 
effet © l’angle entre ko et k (angle de diffusion). On a évidemment en module: 


q = 2k sn © ; (3.101) 
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Figure 3.5: Géométrie de la diffusion par un cristal. 
Il n'existe de solution en termes de © que si: 
q <2k. (3.102) 


La plus petite distance non nulle possible sur le réseau réciproque est sa maille, 27/a. On n’aura donc 
de solution dans une direction différente de la direction incidente que si 27/a < 2k, ce qu’on peut 
encore écrire: 


a > À/2. (3.103) 


Si la longueur d’onde incidente est plus grande que 2a, il n’y a que la diffusion vers l’avant. Nous 
étendons donc la validité des résultats du paragraphe précédent, établis a priori pour une distance 
moyenne entre atomes très petite devant À. Pour À < 2a, il y a au moins une direction de diffusion 
efficace. Pour une longueur d’onde incidente suffisamment petite, on doit voir plusieurs directions 
correspondant à plusieurs points du réseau réciproque. 

Cette diffusion cohérente dans des directions privilégiées est appelée diffusion de Bragg. Elle a 
en effet été largement utilisée par Bragg pour les premières déterminations de structures cristallines 
par diffusion de rayonnement X. C’est encore une méthode d’étude précieuse des matériaux. En 
enregistrant la lumière diffusée par un cristal, on enregistre les points du réseau réciproque. Il est alors 
facile de remonter, par transformation de Fourier, au réseau cristallin original. Nous avons considéré 
uniquement le cas d’atomes identiques. Dans un cristal plus complexe, on observe la superposition des 
figures de diffusion dues aux différentes espèces cristallines. Les différences d'amplitude de diffusion 
individuelles (dans le terme ega) permettent de remonter à l’arrangement tridimensionnel des atomes. 
L'ensemble de ces techniques peut être transposé à la diffusion d’autres types de rayonnement. Le 
fonctionnement ultime des microscopes électroniques correspond à une diffusion de Bragg des ondes 
électroniques sur le réseau cristallin. Les neutrons sont aussi largement utilisés. Ils interagissent en 
effet beaucoup mieux que les rayons X avec certains atomes légers. 
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3.3.4 Diffusion par un milieu désordonné 


Considérons maintenant la diffusion par un milieu désordonné. Nous supposerons que les positions 
des centres diffuseurs sont aléatoires et que la densité n’est pas trop grande. Le nombre de centres 
diffuseurs dans un élément de volume de l’ordre de à? est donc aléatoire. Nous pouvons comprendre 
à partir de cela les propriétés qualitatives du rayonnement diffusé. 

E(q) est en effet la transformée de Fourier en q de ôn. Si q est très voisin de zéro (diffusion vers 
l’avant), E est déterminé par une moyenne à grande échelle (extension spatiale de l’ordre de 1/q) de 
la fluctuation d'indice. Même si le nombre de particules varie à l’échelle de À, l’indice moyenné sur 
une échelle beaucoup plus grande est constant. On retrouve donc, vers l’avant, une diffusion cohérente 
de tous les atomes, comme dans le cas du milieu dense. Là encore, la notion d’indice de réfraction 
ordinaire prend tout son sens. 

En revanche, si on s'intéresse au rayonnement diffusé dans une direction quelconque, on échantil- 
lonne dans ôn les variations spatiales à une échelle de l’ordre de À, qui sont importantes par hypothèse. 
Il y aura donc de la lumière diffusée. De plus, si n est réellement aléatoire, il se comporte comme 
un bruit blanc dont la transformée de Fourier est pratiquement indépendante de q. On peut donc 
s'attendre à une transformée de Fourier isotrope et à un diagramme de diffusion dominé par le terme 
eq (il ne saurait y avoir de diffusion selon Ox quelle que soit la géométrie du milieu). 

Précisons un peu ce raisonnement très qualitatif en nous intéressant à l'intensité diffusée dans une 
direction k très différente de la direction initiale. Cette intensité est proportionnelle à la composante 
de Fourier de la fonction d’autocorrélation de l’indice à une fréquence spatiale de l’ordre de À. Pour 
estimer cette fonction d’autocorrélation, divisons le milieu en petits éléments de volume AV de taille 
de l'ordre de X°. Nous supposerons que le nombre d’atomes p dans chaque élément de volume est 
une fonction aléatoire et que les nombres de particules dans des volumes adjacents sont des fonctions 
aléatoires indépendantes (nous prenons ici une image statique du gaz, un instantané de la position de 
toutes les molécules dans un gaz réel. Cette approximation est donc raisonnable). 

La fonction d’autocorrélation d'indice peut s’écrire, à un facteur |a|?/4 près, comme la fonction 
d’autocorrélation de la densité numérique N(r) des particules: 


_ la? - 
T(p)= © | NENG p)dr. (3.104) 


La densité numérique comporte un terme moyen, No, auquel s’ajoutent les fluctuations Np: N = 
No + Ny. La valeur moyenne spatiale de ces fluctuations est évidemment nulle. Si on reporte dans 
l'expression ci-dessus cette décomposition de N, on voit donc apparaître seulement deux termes. L’un 
est l'intégrale de NÊ et ne contribue qu’à la diffusion vers l’avant. C’est le seul terme qui intervient 
dans le cas du milieu homogène. On peut donc, pour la diffusion latérale, l’oublier. L’autre terme est 
l’autocorrélation de la fluctuation de densité. On peut donc écrire: 


_ le E 
T(p)= © J, NON p}dr . (3.105) 


Avec nos hypothèses, les fluctuations de densité de deux cellules adjacentes ne sont pas corrélées. 
T sera donc nulle dès que p est plus grand que la taille caractéristique d’une cellule, c’est à dire À. 
Essentiellement, à l’échelle du volume total du milieu, [n’est non nulle que dans un voisinage de 
l’origine d'extension AV. Estimons maintenant l’ordre de grandeur de I dans ce voisinage, c’est à 
dire l’ordre de grandeur de (0). En supposant le milieu invariant par translation, 


_ la 


ro) = © 


VN? (3.106) 


Soit p le nombre de particules dans une cellule donnée. Il doit obéir à une loi de Poisson avec 
une valeur moyenne NAV. L'écart quadratique moyen de p, Ap? doit donc être égal à cette valeur 
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moyenne. La densité numérique dans cette cellule est p/AV. N? est l’écart quadratique moyen de la 
densité numérique dans les cellules. On a donc 
2 Ap? P N 


E A E N T 
NS AVI AVI AY ie 


L'ordre de grandeur de la fonction d’autocorrélation est donc: 


ee 
r0) = — N — 3.108 
0) = NE (3.108) 
Un modèle simple de I est donc de prendre une valeur constante égale à l'(0) dans le volume AV 
autour de l’origine et zéro partout ailleurs. La transformation de Fourier, en ordres de grandeur, se 
ramène alors à une multiplication par AV et l'intensité diffusée dans une direction loin de l'incidence 
est donc finalement proportionnelle à: 


I = jeal?la NV = Jea lal N . (3.109) 


L’intensité est ici seulement proportionnelle au nombre d’atomes, alors qu’elle était proportionnelle 
à son carré pour la diffusion par un milieu dense. C’est là un comportement caractéristique de 
l'émission incohérente, dont nous avions déjà rencontré un exemple avec la diffusion par un réseau 
aléatoire d'ouvertures. En fait, le rayonnement diffusé est simplement W fois le rayonnement diffusé par 
un atome unique (le diagramme de rayonnement étant donc essentiellement celui d’un dipôle unique). 
Ce résultat légitime les calculs de longueur d’extinction que nous avions faits pour la diffusion par 
l’atmosphère. 


3.3.5 Influence de la dynamique du milieu 


Dans beaucoup de cas, on ne peut pas considérer les atomes ou les centres diffuseurs comme immobiles. 
Si nos approximations sont réalistes pour un milieu dense ou un cristal (jusqu’à un certain point), 
elles tombent sûrement pour un gaz. Le rayonnement diffusé n’est plus monochromatique. On peut 
le comprendre qualitativement simplement en introduisant l’effet Doppler sur l’onde diffusée par une 
particule mobile. Pour décrire un tel champ et son spectre, on définit une densité spectrale d'énergie 
rayonnée, J(v), telle que l'intensité dans une bande de fréquence dv (on prendra garde que v est en 
fait ici une pulsation) autour de v soit J(v)dv. On peut alors définir la diffusion par la fonction J(q, v) 
qui donne la densité spectrale du rayonnement diffusé dans la direction définie par q. On montre, par 
des arguments très similaires à ceux que nous avons utilisés, que cette fonction est la transformée de 
Fourier spatio-temporelle de la fonction d’autocorrélation spatio-temporelle des fluctuations d’indice 
(définies à partir de la polarisabilité) et qui dépendent cette fois de la position et du temps: 


Have leal? Î dr dpetPe CET (p,r) , (3.110) 


avec 


r(p,T)= I dr ôn*(r,to)ôn(r — p, to- T). (3.111) 


Dans la dernière expression, ôn représente une moyenne temporelle sur tọ à une échelle de temps 
longue par rapport aux temps du problème. 

Pour un milieu statique, toutes les fonctions de v se ramènent à un Dirac centré à la fréquence 
incidente w et toutes les discussions précédentes restent valables. Pour un milieu quelconque, la 
fréquence est modifiée. Il est facile de voir que, pour un gaz, par exemple, la diffusion reste isotrope, 
mais que le spectre du rayonnement diffusé est essentiellement le spectre Doppler du milieu. Plus 
généralement, létendue spectrale du rayonnement doit être l'inverse du temps caractéristique de la 
fonction de corrélation (qui est presque toujours maximale à temps nul et décroissante ensuite). Pour 
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l'effet Doppler, le temps caractéristique est le temps nécessaire pour que les molécules se déplacent de 
À, soit À/v = 2rc/wv où v est la vitesse caractéristique des molécules. On retrouve bien une largeur 
Doppler relative égale à v/c. Le calcul précis des fonctions de corrélation est souvent assez délicat et 
nous ne l’aborderons pas d'avantage ici. 

Nous allons en revanche appliquer la formule précédente à un cas simple et intéressant tech- 
nologiquement, la diffusion Brillouin, ou diffusion d’une onde lumineuse par une onde sonore. C’est, 
comme nous le verrons, un phénomène important pour comprendre les bruits dans les fibres optiques. 
C’est aussi le phénomène qui constitue les modulateurs acousto-optiques, très utilisés en physique des 
lasers. 

Nous considérons donc un milieu parcouru par une onde acoustique sinusoïdale de fréquence ws. 
Cette onde correspond à une modulation de la densité du milieu et donc à une modulation de l’indice 
de réfraction. On peut donc écrire l’indice au point r et à l’instant t sous la forme: 


n(r,t) = no + nı cos(k, : r — wst) . (3.112) 


Dans cette expression, no est l'indice moyen du milieu. Comme dans le paragraphe précédent, cet indice 
uniforme et statique ne contribue qu’à la propagation dans la direction initiale. Tous les phénomènes 
non triviaux sont contenus dans le second terme, dont les moyennes spatiales et temporelles sont 
nulles. Nous n’utiliserons donc, dans le calcul des fonctions de corrélation, que ce second terme. 

Le vecteur d'onde ks a pour module ws/Us, où vs est la vitesse du son dans le milieu. Pour fixer 
les ordres de grandeur, nous considérerons un milieu cristallin, où la vitesse du son est de quelques 
kilomètres par seconde: vs = 10% m/s. Nous considérerons une fréquence résolument ultrasonore, 
ws ~ 6.108 (soit 100 MHz en unités de fréquence). ks est alors de l’ordre de 6.10°/m, soit une longueur 
d’onde de l’ordre de 27r /ks = 10 um. De manière évidente, il n’y aura d’effet sensible de l’onde sonore 
que si elle n’est pas trop grande par rapport à la longueur d’onde optique dans le matériau, c’est à dire 
si la fréquence acoustique est au moins de cet ordre. Pour des fréquences d’onde sonore très basses, 
on a simplement une propagation vers l’avant avec une petite modulation de phase. 

Il est facile alors d'écrire la fonction de corrélation, en prenant, comme l'indique sa définition, 
londe acoustique sous forme complexe nı exp(i(k, -r — wst)): 


(pr) = nà | drei&sr-wsto) Qitks (r—D)-ws (#07) . (3.113) 


Le temps to s’élimine naturellement et il ne reste qu’un quantité invariante dans le processus de 
moyennage temporel. La dépendance en r s’annulant aussi, l’intégrale de volume se ramène à une 
simple multiplication par V et on trouve finalement: 


T(p,7) = nVe- ie Pur) | (3.114) 


La densité spectrale de rayonnement diffusé s’exprime alors simplement. La transformée de Fourier 
spatiale de l’exponentielle complexe dans I se ramène, pour un milieu de grande extension, à une 
fonction de Dirac. La transformée de Fourier temporelle donne exactement une fonction de Dirac. On 
trouve donc finalement, à des coefficients numériques près qui contiennent diagramme de rayonnement 
des dipôles et des termes en n? proportionnels à l'intensité de londe sonore: 


J(q,v) x ôlq — ks)ô(v — ws — w)W? . (3.115) 


Il ne sort donc du milieu, en plus de l’onde dans la direction initiale, qu’un seul faisceau diffusé, 
dans la direction définie par q + ks. La fréquence de ce faisceau est décalée par rapport à la fréquence 
de londe incidente de ws. On peut comprendre assez facilement ce résultat en faisant appel à la notion 
de phonon. La propagation d’ondes acoustiques dans un réseau cristallin peut en effet se comprendre 
comme la propagation de quasi-particules, très analogues au photon, que l’on nomme phonons. Ces 
particules, d'énergie ħws, ont une quantité de mouvement ñks. Les photons incidents ont une impulsion 
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hk et une énergie hw,. La collision entre un photon et un phonon, si elle respecte la conservation de 
l'impulsion et de l’énergie, doit donc produire un photon d'impulsion A(k + ks) et d'énergie A(w + ws). 
Si ces arguments très simples ne permettent pas de donner la probabilité que l’événement se produise 
(c’est à dire de calculer l'intensité de londe diffusée), ils permettent néanmoins de comprendre les 
caractéristiques essentielles de l’onde produite. 

Cette diffusion cohérente d’une onde lumineuse sur une onde sonore joue un grand rôle en optique. 
Un rôle néfaste, d’abord, pour les transmissions par fibre optique. Les collisions des photons avec les 
ondes sonores thermiquement excitées dans la fibre sont une cause importante de bruit de phase et de 
perte de signal optique. Il est très difficile de s’en affranchir. Les vibrations couplées efficacement aux 
ondes lumineuses ont une énergie de quelques centaines de MHz et sont donc largement peuplées par 
le bruit thermique de phonons. 

En revanche, la diffusion Brillouin peut être mise à profit pour dévier et transposer en fréquence 
un faisceau laser. C’est le principe du modulateur acousto-optique, très utilisé maintenant. L'intérêt 
en est essentiellement la transposition de fréquence. A partir d’un seul faisceau laser, on peut disposer 
d’autres faisceaux de fréquences différentes mais ayant une relation de phase parfaitement bien définie 
avec le faisceau initial. L’exploration de fréquence que l’on peut atteindre dépend essentiellement de 
la bande passante des transducteurs électromécaniques créant l’onde. On peut maintenant couvrir 
une gamme de quelques centaines de MégaHertz. En optimisant le fonctionnement, l'efficacité de 
conversion entre la puissance incidente et la puissance transposée peut avoisiner 90%. On peut donc 
envisager de cascader ces modulateurs pour étendre l’excursion en fréquence. Enfin, en modulant 
temporellement l'intensité de londe sonore, on peut moduler l'intensité de l’onde diffusée sans changer 
sa direction ni sa fréquence. On peut ainsi réaliser des obturateurs très rapides, avec des temps de 
réponse très inférieurs à la microseconde. La déflexion du faisceau, enfin, peut être utilisée pour 
réaliser des balayages rapides. Les premières imprimantes laser fonctionnaient sur ce principe. Les 
modulateurs acousto-optiques, très coûteux, ont depuis été remplacés par des miroirs holographiques 
rotatifs. 
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Appendice 1 


Réaction de rayonnement: modèle 
d’Abraham-—Lorentz 


Nous avons introduit la force de réaction de rayonnement par un simple argument de bilan énergétique. 
Nous allons, dans cet appendice, donner un modèle très naïf de particule chargée qui prédit correcte- 
ment l’expression de cette force et qui montre qu’elle est en fait la résultante des forces que la particule 
exerce sur elle-même, non nulle si l’accélération de la particule varie. Nous montrerons aussi que ce 
modèle a des limites sérieuses (non-invariance relativiste, prédiction d’une masse électromagnétique 
incorrecte) et qu’il ne faut donc le prendre que comme un guide qualitatif. 

Nous considérerons donc la particule chargée comme une distribution volumique de charges à 
symétrie sphérique. Si la particule était immobile, la distribution de charges s’écrirait simplement 
plr) = p(r), l’origine étant bien sûr choisie au centre. Nous considérerons une particule en mouvement 
d'ensemble non relativiste. La distribution de charge se déplace donc en bloc avec une vitesse v(t). 
La densité de charges résultante s’écrit donc p(r,t) et la densité de courant associée j(r,t) = pv(t). 
Nous choisirons l’origine au centre de la particule à un instant t donné. La particule est placée dans 
un champ électromagnétique extérieur Ez, Bz. Nous noterons E, et B, les champs électriques et 
magnétiques produits par la particule en mouvement elle-même. Les champs totaux sont donc la 
somme de ces champs et des champs extérieurs. 

Nous supposerons que toutes les propriétés énergétiques ou inertielles de la particule sont liées à 
son seul champ électromagnétique. La “masse mécanique” de la particule est donc nulle. L’équation 
du mouvement impose donc que la somme des forces de Lorentz dues au champ extérieur F, et au 
champ propre F, s’annulent. Nous devons donc avoir: 


Fe =- | oE; +jx Bs, (1.1) 


où l'intégrale s'étend à l’ensemble du volume de la particule. Nous allons exprimer cette intégrale en 
termes des dérivées successives de la vitesse de la particule. Nous aurons ainsi écrit une équation du 
mouvement décrivant l’évolution de la vitesse de la particule dans un champ extérieur. Nous verrons 
que le terme en dérivée seconde de la vitesse donne la force de réaction de rayonnement et que le terme 
en dérivée de la vitesse permet de définir une masse d’origine électromagnétique pour la particule. 

Avant d'entrer dans les détails du calcul, il est important de préciser que ce modèle n’est pas très 
réaliste. Son principal défaut est d'imaginer une distribution de charges qui reste stable sous l’influence 
des seules forces électromagnétiques. Il est évident que notre répartition de charges devrait exploser 
littéralement sous l’influence des forces de Coulomb. En admettant même qu’on puisse décrire une 
particule de façon aussi naïve, il faudrait ajouter au modèle des forces de cohésion de nature non 
électromagnétique. À ces forces serait associée une énergie et donc une contribution à l’inertie. Le 
calcul est faisable et permet de corriger certains défauts du modèle mais la description en termes de 
distribution étendue des particules élémentaires reste bien naïve. 
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Nous devons donc calculer l'intégrale des forces de Lorentz produites par la particule elle-même. Il 
est tout à fait évident d’abord que, pour un mouvement non relativiste, les forces magnétiques jouent 
un rôle négligeable. Nous écrirons donc: 


> Î plr, Er, t) dr . (1.2) 


Le champ E, dérive des potentiels retardés V; et As. On a: 


pt R/c) 1 
mal —p ir (1.3) 


e j(r et- Rjg dr, (1.4) 


où R = |R| avec R = r — r’. L’extension de la particule étant petite, les temps retardés sont 
pratiquement égaux à t. On peut donc effectuer un développement de Taylor à tous les ordres des 
potentiels en puissance du retard R/c. 

Pour le potentiel vecteur, on a: 


Aegan PE f dr Re- TAE (1.5) 


2 lon 
AT E0C 2 nle 


V(r,t) 


A,(r,t 
s -z 


On peut alors facilement exprimer —ðA,/ðt et donner la contribution du champ électromoteur à 
l'intégrale de la force de Lorentz: 


F, 


j 


_1)7 des or n+1 
DD CD [dr dr! pe t)R rene AU (1.6) 


Notons que dans la suite du calcul, les sommes porteront implicitement sur n, entre zéro et linfini. 
Pour le potentiel scalaire le même développement donne: 


5y Cr J dr! Ro p, s (1.7) 


dont on calcule facilement le gradient par rapport à r (notons que cette dérivation commute avec 
l'intégrale sur r’). On trouve finalement une contribution à la force de Lorentz: 


SE 


Considérons les deux premiers termes dans le développement de Fz, y. Le premier fait intervenir: 


ATEC? 


1 


V(r,t) = TER 


1 
ÅTEo 


Fav = L f Prd olr, t) Vr R a bte (1.8) 


-i 


J Pr dr p(r,t)p(r',t)V-R . (1.9) 


On y reconnaît facilement un terme proportionnel à l'intégrale sur la distribution de charges de la force 
de Coulomb exercée par les autres parties de la distribution. Le principe de l’action et de la réaction, 
vérifié par les forces électrostatiques, montre alors que cette intégrale est nulle. Le terme d’ordre un 
est nul lui aussi, puisqu'il fait intervenir l'intégrale du gradient d’une constante. Le premier terme non 
nul est donc au moins à l’ordre 2. On peut en fait regrouper, au prix d’une simple renumérotation, 
les termes d’ordre n issus du potentiel vecteur et les termes d’ordre n + 2 issus du potentiel scalaire 


et écrire finalement: 
gn+i 
-5 De = fa r plr, t) omr Cnet) , (1.10) 


ala dp(r’,t) Var 
em 3. pn—-1 ! CA ES 
Cn(r,t) = J dr R ie ,t) + D ntn ART] (1.11) 


avec: 
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La contribution du deuxième terme du crochet dans Cp peut être transformée en utilisant l’équation 
de conservation de la charge: 0p/0t = —V,:j. On remarquera aussi que: 


VR? = (n+ 1)RR! . (1.12) 
Le deuxième terme du crochet se réécrit donc: 


-5 f Prvy. j@/,t)RT IR . (1.13) 


En utilisant alors une formule peu connue d'intégration par parties: 
f atvb) = - [6 Va, (1.14) 


valable si les champs s’annulent à linfini, ce qui est évident ici, on peut écrire ce deuxième terme sous 
la forme: 


1 3s n—1 
Le Vi 1.1 
y | Pr G VRR (1.15) 
On a alors: 
j- Vr) RIR = RH- Vr)R + [0 Vr) RHR , (1.16) 
et LR 
Ge Vr) R"! = -(n— DR" ER | (1.17) 
ainsi que: 
G:Vr)R = -j. (1.18) 


En regroupant tous ces termes, on met finalement l'intégrale Cn sous la forme: 


v(t)-R 


nilmn+i n—1 
t) = j dr R 1 [evo Ea n1 C) ; (1.19) 


où nous avons utilisé j = pv. Pour des raisons de symétrie évidente, cette intégrale doit avoir la 
direction de la vitesse v. Dans l'intégrale, toutes les orientations de R. par rapport à v apparaissent 
de façon symétrique. Il est donc possible, sans changer le résultat final, de remplacer le deuxième 
terme du crochet par la valeur moyenne de sa projection sur v pour toutes les orientations possibles 
de R. Cette valeur est proportionnelle à la moyenne du cosinus carré de l’angle entre v et R, soit 1/3. 
On a donc: 


AE FA) Î dr R°- pr) , (1.20) 


un résultat étonnamment simple. 

Reportons maintenant cette expression dans celle de la force de Lorentz. Nous devons prendre la 
n + 1ème dérivée temporelle de Cn. Il apparaît ainsi les termes en dérivées successives de la vitesse. 
Mais il apparaît aussi des termes faisant intervenir les dérivées temporelles de p. v étant la vitesse 
d'ensemble, 0p/0t ~ (Vp) - v. Les termes en dérivées de p sont donc des termes quadratiques dans 
la vitesse et ses dérivées. Nous pourrons les négliger si la vitesse est suffisamment faible et écrire 
finalement: 


yr 9 ly( zet i 
= LE Cr ro | d'rdr plr, t)p(r, t) R=. (1.21) 
Explicitons le terme d’ordre 0: 
4U. 
25a (1.22) 


! 
U = 1 r dr dr’ p(r, t)o(r t) | (1.23) 
ATEo R 
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est simplement l’énergie électrostatique de la distribution de charges. A l’ordre 1, nous avons: 


Le (1.24) 


a= | reli), (1.25) 


est simplement la charge totale de la distribution. On peut donc écrire finalement, en négligeant les 
termes d’ordre supérieur, l'équation du mouvement de la particule sous la forme: 


mý = F, +F, , (1.26) 


où F, est la résultante des forces extérieures et F, la force de réaction de rayonnent que nous obtenons 
ici directement sous la forme démontrée par les arguments énergétiques dans le corps du chapitre. m 
est la “masse électromagnétique” 

m = = ; (1.27) 
de la particule décrivant linertie de son propre champ. 

Si ce calcul nous donne bien la force de réaction de rayonnement, il n’est guère satisfaisant pour 
la masse électromagnétique. Celle-ci est en effet égale à 4U/3c? où U est l'énergie. L’invariance 
relativiste imposerait une masse égale à U/c?. La différence est due bien sûr au caractère irréaliste de 
ce modèle qui ne tient pas compte des forces de cohésion nécessaires à la stabilité de la répartition de 
charges. La conséquence en est que ce modèle n’est pas invariant de Lorentz ce qui limite beaucoup 
son intérêt. 


Partie V 


Electromagnétisme dans la matière 
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Introduction 


Nous nous proposons dans cette partie de décrire la propagation des champs électromagnétiques dans 
la matière dense. En fait, l’objet essentiel de ce chapitre sera de donner un contenu physique précis à 
la notion d’indice de réfraction et d'étudier la propagation de la lumière dans un certain nombre de 
milieux choisis pour leur caractère exemplaire. 

Les équations de Maxwell doivent décrire de façon parfaitement satisfaisante la propagation dans 
les milieux matériels à condition d’inclure toutes les sources du champ électromagnétique. Il y a a priori 
deux sortes de courants ou de répartitions de charges. Il y a, d’une part, les courants macroscopiques 
produits par les générateurs ou les sources, en général contrôlés par l’expérimentateur, et descriptibles 
dans les termes que nous avons déjà employés dans les chapitres précédents. Il y a, d’autre part, tous 
les courants, plus ou moins incontrôlés, qui décrivent tous les transports de charge dans la matière 
dense. Tous les électrons d’un milieu peuvent contribuer à la propagation d’une onde. Nous appellerons 
charges (ou courants) libres les premiers, charges ou courants liés les seconds. Libres, parce qu’ils sont 
sous contrôle de l’expérimentateur, liés parce qu’ils correspondent aux mouvements de charges liées à 
la matière. 

Il est évident que les charges libres ne nous poseront pas plus de problèmes que dans l’espace libre 
et qu’une adaptation des solutions en potentiels retardés ou des développements multipolaires suffira 
à les traiter. Ce qui rend le problème complexe, c’est bien sûr la présence des charges liées. On doit a 
priori tenir compte de toutes les charges du milieu et décrire les champs électriques intra-atomiques 
autant que celui de l’onde plane que nous essaierons de propager! On est en fait dans une situation 
analogue à celle de la mécanique quand elle essaie de décrire un gaz en tenant comptabilité de la 
position et de la vitesse de toutes les molécules. Comme en thermodynamique, nous n’aurons pas 
besoin de connaître explicitement les champs microscopiques dans leur horrible complexité. Il serait 
d’ailleurs tout à fait illusoire de chercher à les mesurer. Les seules quantités qui nous intéresseront 
seront des moyennes d'ensemble à l’échelle macroscopique de nos sources et de nos détecteurs. 

L'objet du premier chapitre de cette partie sera donc de définir des processus de moyennage, de 
lissage, permettant de dériver des champs à l’échelle microscopique à partir des champs ayant une 
échelle de variation macroscopique. Cette échelle devra cependant être assez fine pour une description 
précise des phénomènes macroscopiques. Elle devra par exemple, pour un problème de propagation, 
être petite devant la longueur d’onde. Chaque atome, chaque molécule du milieu ne joue, dans ces 
moyennes, de rôle qu’à une distance très grande par rapport à sa taille. Nous pourrons donc utiliser 
les techniques de développements multipolaires du chapitre précédent pour traiter ce champ. Nous 
définirons donc des densités macroscopiques de polarisation, dipolaire ou quadripolaire électrique et 
dipolaire magnétique. Nous montrerons enfin que les équations décrivant les champs moyennés sont 
les équations de Maxwell, à condition d’y faire intervenir des densités de charge et de courant, elles 
aussi macroscopiques, liées aux dérivées spatiales et temporelles des densités de polarisation. Nous 
aurions donc résolu le problème si nous connaissions ces densités de polarisation. 

En général, on ne peut rien dire des densités de polarisation. Elles dépendent en effet évidemment 
des champs appliqués qui, en retour, dépendent des densités de polarisation. Nous trouverons dans 
le deuxième chapitre une issue à ce problème. Nous supposerons, comme c’est pratiquement tou- 
jours le cas, que les champs appliqués seront assez faibles pour que le matériau réponde de façon 
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linéaire à l’excitation. Autrement dit, les densités de polarisation seront des fonctions linéaires des 
champs électriques et magnétiques macroscopiques, ce qui nous permettra enfin d’écrire les équations 
de propagation, les équations de Maxwell dans la matière, sous une forme close. Nous introduirons 
les susceptibilités électriques et magnétiques qui décrivent ces relations de proportionnalité, et nous 
donnerons quelques modèles simples de thermodynamique statistique pour prévoir leurs ordres de 
grandeur. Enfin, nous établirons sur ces susceptibilités, des résultats très généraux s’appliquant à 
priori à toute théorie de la réponse linéaire. Nous montrerons en effet que la simple causalité impose 
des relations très fortes entre les parties réelles et imaginaires des susceptibilités. Comme les unes 
décrivent l’indice de réfraction et les autres l’absorption par le milieu, nous en déduirons des relations 
très profonde entre dispersion et absorption. 

Dans le dernier chapitre, enfin, nous appliquerons tout cela à des problèmes de propagation. Nous 
essaierons de comprendre pourquoi la plupart des milieux sont absorbants. Nous verrons à quelles 
conditions un milieu matériel peut être amplificateur pour les ondes lumineuses et nous inventerons en 
passant le laser. Nous envisagerons aussi la propagation dans les plasmas ou les métaux, équivalents 
de ce point de vue. Nous nous pencherons aussi sur les conditions de passage entre deux milieux 
différents. Nous en déduirons, dans le cas des diélectriques transparents, les lois de Descartes-Snell 
de la réfraction, mais aussi les coefficients de Fresnel qui décrivent les amplitudes relatives des ondes 
réfléchies et réfractées. 


Chapitre 1 


Equations de Maxwell dans la matière 


La première étape de notre travail est donc d’écrire, de manière consistante, des valeurs moyennes 
macroscopiques à partir des champs et sources réels. 


1.1 Champs et charges microscopiques et macroscopiques 


Nous noterons pz et ją les densités de charges et de courant complètes, incluant les charges liées et les 
charges libres. Si nous notons e et b les vrais champs électrique et magnétique à l’échelle microscopique, 
ils sont déterminés par p; et ją et par les équations de Maxwell sous leur forme habituelle, qu’il n’est 
peut être pas nécessaire de rappeler encore une fois. 

Nous voulons définir des moyennes des quantités ci dessus à une échelle très grande par rapport à 
la taille atomique, ou par rapport aux distances entre molécules voisines. Nous devrons d’autre part 
pouvoir décrire des phénomènes ondulatoires. Il faudra donc que l’échelle de moyennage reste petite 
par rapport à la longueur d’onde du rayonnement considéré. Nous choisirons donc l’échelle de notre 
moyennage, so, de telle manière que: 

ag € 80 K À, (1.1) 


où ao est le rayon de Bohr, qui est aussi l’ordre de grandeur de la distance entre particules dans la 
matière dense. Si nous nous intéressons à des ondes optiques, les longueurs d’onde étant de l’ordre 
du micron et ao de la fraction d’Ângstrôm, nous pouvons trouver facilement une échelle intermédiaire 
aux environs de la dizaine de nanomètres. Une sphère de rayon sọ contient un très grand nombre 
d’atomes, tout en restant un petit objet à l’échelle de la propagation. Bien sûr, nous nous interdisons 
ainsi de décrire la propagation d’une onde de longueur d’onde comparable à ao, dans le domaine des 
rayons X. La propagation d’une telle onde est beaucoup mieux décrite en termes de diffraction par le 
réseau cristallin qu’en termes d'indice de réfraction. Nous nous interdisons aussi de décrire des milieux 
très dilués. Mais il est évident que ces milieux sont essentiellement identiques au vide. 

Nous définissons une fonction de lissage, d'extension so, W (s), homogène à l'inverse d’un volume. 
Nous pourrons par exemple prendre une fonction gaussienne, de la forme exp(—s?/s$)/sè, avec un 
coefficient de normalisation convenable pour que l'intégrale sur tout l’espace de W soit égale à un. 
Notons que W doit être une fonction à symétrie sphérique pour respecter l’invariance par rotation 
des équations de Maxwell. Il est aussi important qu’elle varie régulièrement à l’échelle de sọ. Si nous 
prenions par exemple pour W la fonction caractéristique d’une sphère de rayon ro, nous risquerions de 
ne pas obtenir des champs lisses à l’échelle macroscopique. Il suffirait en effet de déplacer cette sphère 
d’une quantité voisine de ao pour englober dans la moyenne un électron de plus ou de moins. Comme 
la matière est en général globalement neutre, on pourrait ainsi modifier considérablement la densité 
moyennée de charges par un déplacement microscopique de la sphère d’intégration. Notons également 
que les résultats de notre travail seront complètement indépendants de la forme de W et de l’échelle 
de moyennage so. Nous n’aurons d’ailleurs jamais à réaliser effectivement un de ces moyennages, 
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puisque nous ne connaîtrons jamais les champs microscopiques. Nous définissons alors les quantités 
macroscopiques moyennées comme: 


E(r,t) = fee -s.0m(s ds (1.2) 
B(r,t) = J be-s iwe) ds (1.3) 
olrt) = J px — 8, W (8) dés (1.4) 
je = Jie-sow(s ds. (1.5) 


Ces quantités ne peuvent, par construction, varier plus rapidement que sọ. Elles ont donc toutes 
les bonnes caractéristiques pour jouer le rôle de variables macroscopiques. Les équations de Maxwell 
étant linéaires, elles commutent avec cette opération de prise de valeur moyenne par une intégration. 
Les quantités moyennées obéissent donc rigoureusement aux équations de Maxwell. 

Dans les sources, nous pourrons, comme nous le mentionnions dans l’introduction, séparer les 
contributions des charges libres et des charges liées. Nous écrirons o et J sous la forme: 


0 = p+pe (1.6) 
J j+je, (1.7) 


où p et j sont les densités de charges libres, et pẹ, js les densités de charges et de courant liées à la 
matière. Nous ne nous préoccuperons plus pendant un moment des densités libres, qui se traitent 
comme dans le vide. Notons toutefois qu’il s’agit de quantités moyennées à l’échelle so. Il wy aurait 
plus de sens à parler dans notre approche d’une charge ponctuelle ou de tenter de déterminer les 
champs sur des échelles de distance inférieures à sọ. 


1.2 Distributions moyennées 


Nous allons maintenant tenter de décrire les charges liées. Nous allons pour cela regrouper les charges 
de la matière en molécules. Cette approche est bien sûr justifiée par la composition de la matière, 
mais elle nous permettra, surtout, de décrire les champs produits par une molécule en termes de 
développements multipolaires. 


1.2.1 Densités microscopiques 


Nous diviserons donc l’énorme collection de charges liées en molécules. Une charge liée restera toujours 
attachée à la même molécule. Nous indicerons les molécules du milieu avec un indice m. Une molécule 
pouvant contenir plusieurs charges, nous indicerons les charges à l’intérieur de chaque molécule par 
un indice grec Ø. Nous noterons donc qmg la charge d’une des charges de la molécule m, rmg sa 
position et Vmg sa vitesse. Les densités de charge et de courant liées avant moyennage sont données 
respectivement par: 


5 ImBÔ(T — rmo) (1.8) 
m,6 


S GmEVmBÔ(T — rmp) : (1.9) 
m,ß 


En plus de ces quelques notations, nous allons faire des hypothèses réalistes sur nos molécules. Nous 
allons tout d’abord les supposer immobiles. Tout au moins, nous supposerons qu’elles se déplacent 
suffisamment peu ou suffisamment lentement pour que ce déplacement n’affecte pas la propagation. 
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Comme nous ne manipulerons que des quantités moyennées à l’échelle so, nous n’aurons à exclure que 
les mouvements d'ensemble à une échelle macroscopique. L’agitation dans les gaz, par exemple, a un 
libre parcours moyen si petit (quelques dizaines d’Ângstôms à pression ambiante) que ces mouvements 
n’influent en rien sur la propagation d’une onde optique. Si nous avions un déplacement d’ensemble 
suffisamment rapide, la propagation en serait affectée. Un champ en un endroit crée une polarisation 
moyenne qui pourrait se propager en un autre endroit et contribuer au rayonnement d’une autre 
région: il apparaîtrait des termes de convection dans les équations de propagation. Notons toutefois 
qu’il serait possible de tenir compte de ces déplacements d'ensemble au prix de quelques complications 
arithmétiques sans importance. Nous expliquerons brièvement comment les équations de Maxwell 
dans la matière sont modifiées dans un milieu en mouvement. Nous négligerons aussi toute action 
mécanique du champ sur les particules. Nous ne considérerons pas le cas où le champ pourrait induire 
des déplacements d'ensemble ou des variations de densité. Très généralement, l’action des champs sur 
les degrés de liberté externes des molécules est complètement négligeable devant l’agitation thermique 
ou les forces de liaison des cristaux. Ce n’est qu’au voisinage immédiat d’une transition de phase ou 
d’un point critique, par exemple, que cette petite perturbation peut avoir un effet important sur le 
milieu. Il faut citer aussi les milieux dilués d’atomes refroidis par laser où on pourrait observer ce 
genre d'effets. 

Si nous notons r la position de la m-ième molécule (par exemple la position de son centre de 
gravité, ou de tout autre point remarquable situé au sein de la molécule), nous aurons donc: 


Èm = Vm =0. (1.10) 


Nous allons supposer aussi que nos molécules sont neutres (X pgm = 0). Si ce n’était pas le cas, 
elles ne pourraient créer, puisqu'elles sont statistiquement immobiles, qu’une répartition de charges 
électrostatiques, dont le champ serait aisément calculable et qui, de toutes façons, ne contribueraient 
aucunement au rayonnement. 

Nous pouvons maintenant repérer la position des charges de la molécule m par rapport à la position 
constante de celle-ci. Nous écrirons donc: 


rm8 = Tm + Eme , (1.11) 


où Ẹ est par hypothèse une quantité de l’ordre de ao, taille de la molécule. rm étant constant, on peut 
réécrire les densités de charge et de courant liées avant moyennage comme: 


D dmgô(r — rm — Emp) (1.12) 
m8 
5 ImBËmpÔ(r —Tm — Emo) . (1.13) 
m,ß 


1.2.2 Moments multipolaires 


Après moyennage, on ne regarde les champs qu’à une échelle de l’ordre de sọ. La taille des molécules 
étant de l’ordre de aọ, il est naturel de traiter leurs champs par un développement multipolaire. Comme 
elles sont neutres, ne peuvent intervenir que les termes dipolaires électriques, à l’ordre dominant, 
et dipolaires magnétiques et quadripolaires électriques à l’ordre suivant. Nous nous arrêterons là. 
En général, les termes quadripolaires électriques jouent un rôle complètement négligeable pour la 
propagation dans la matière mais, comme ils apparaissent au même ordre de développement que les 
termes dipolaires magnétiques, il nous faut les conserver un temps pour assurer la cohérence de nos 
développements. Nous décrirons donc une molécule par son dipôle électrique: 


Pt) = D Gm6Ëms ; (1.14) 
E 
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son dipôle magnétique: 
1 ; 
mm(t) = > D 1msËmE X ms , (1.15) 
B 
et enfin son quadripôle électrique, dont les composantes s’écrivent: 


dmij(t) = 5 dmBÊmßbiEmBj . (1.16) 
B 


L'ensemble des multipôles ainsi recensés peuvent être décrits par des densités de polarisation, en 
ajoutant juste des fonctions ĝ centrées sur les molécules. Les densités de polarisation microscopiques 
sont donc données par: 


p(r,t) = 5 Pm(t)ô(r — rm) (1.17) 

m(r,t) = 5 Mpm (t)ó(r — rm) (1.18) 

q(r,t) = 5 qm(t)ó(r — rm) - (1.19) 
Nous allons maintenant procéder au lissage de ces distributions microscopiques. 


1.2.3 Densités macroscopiques 


Le moyennage par la fonction W des densités microscopiques de charges liées redonne les charges liées 
qui peuvent donc s’écrire: 


plr, t) = 5 qma W (r — rm — Emp) (1.20) 
m,ß 

je(r, t) — 5 ImBËmEW (r Im — Emp) - (1.21) 
m,B 


Il est en effet tout à fait évident que la convolution de la fonction de lissage W par une fonction de 
Dirac donne une fonction W du même argument que la fonction de Dirac initiale. On lit directement 
sur les expressions précédentes que l’échelle de variation de ces quantités ne peut pas être plus petite 
que so. 

On définira de même des densités de polarisation moyennes en moyennant les quantités micro- 
scopiques introduites à la fin du paragraphe précédent. On aura: 


Prt) = 5 PmW (r — rm) (1.22) 
M(r,t) = 5 MmW (r — rm) (1.23) 
Q(r,t) = 5 qmW (r — rm). (1.24) 


On notera que Q, comme le moment quadripolaire d’une molécule unique, est, avec nos notations, un 
tenseur symétrique. 

Ces densités de polarisation ont une signification physique bien plus profonde que les charges liées 
elles-même. Si rien ne permet à priori de mesurer les densités moyennes de charges liées, la densité 
de polarisation exprime que chaque élément de volume se comporte comme un petit dipôle électrique 
ou magnétique, dont le champ est au moins en principe mesurable. Il serait donc préférable de 
faire intervenir dans les équations de Maxwell macroscopiques les densités de polarisation plutôt que 
les charges liées, plus obscures. Nous allons maintenant montrer qu’on peut effectivement exprimer 
charges et courant liés en fonction des dérivées spatiales et temporelles des densités de polarisation. 
En quelque sorte, nous allons inverser la définition de ces densités de polarisation. 
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1.2.4 Expression des densités de charges liées 
Densité de charges 


Nous allons commencer par la densité de charges, donnée par (1.20). Nous allons développer, dans 
cette expression, la fonction W en puissance de €. En effet, la fonction ne varie qu’à l'échelle so et 
E est d'ordre ag. On peut donc sans problèmes effectuer un développement de Taylor de chacun des 
termes de la source par rapport à mg. On écrira: 


W (r — rm — Emp) = W (r — rm) — Emo : VW (r — rm) + >P EmbiEmpjðiðW , (1.25) 
tj 


où les dérivées de W s’entendent par rapport à son argument r et doivent toutes être évaluées en 
r — rm. Nous avons poussé ce développement à l’ordre 2. Nous verrons que c’est nécessaire pour 
retrouver les termes quadripolaires électriques. En portant ce développement dans (1.20), on trouve 
la densité de charges sous la forme d’une somme de trois termes: 


pe =0p + p +0, (1.26) 


faisant intervenir les puissances successives de é. 

Il est évident que le terme d’ordre 0 s’annule. La fonction W, constante, sort de la somme sur les 
charges de la molécule m et il reste un terme en 2g qme, nul puisque la molécule est neutre. Le terme 
d'ordre 1 s'écrit: 


pP NÉE 5 VW(r es rm) | >D ImBËmMmE . (1.27) 
He B 


On reconnaît facilement dans la somme sur f le moment dipolaire de la molécule, pm. Du point de 
vue de la dérivation par rapport à l’argument de W, cette quantité est bien entendu une constante, 
et on peut écrire: 


ph) ss y PmW(r—rm)=-V-P. (1.28) 


Comme nous le désirions, ce terme se calcule très simplement comme la divergence de la densité 
macroscopique de polarisation. 

L'interprétation physique de ce terme est tout à fait transparente. Considérons un milieu, tel 
que celui représenté sur la figure 1.1, dont la densité de polarisation est uniforme, alignée avec Oz, 
dans une tranche d’espace d'épaisseur L perpendiculaire à Oz. On peut représenter chaque molécule 
comme un petit dipôle. On peut imaginer par exemple ces petits dipôles strictement alignés le long 
de la direction de polarisation. Si on prend un élément de volume quelconque dans le milieu, la 
densité moyenne de charges sera nulle parce que chaque tête positive d’une molécule quelconque 
est exactement compensée par la tête négative d’une molécule voisine. On trouve donc bien, avec 
cette image physique très simple, que la densité de charges dans le milieu uniformément polarisé est 
nulle. En revanche, si nous considérons un élément de volume recouvrant une interface du milieu avec 
l'extérieur, nous ne trouverons pas une charge nulle. Les charges à l'extrémité des molécules qui se 
trouvent immédiatement à la surface n’ont en effet aucune voisine pour les compenser. En un mot, 
nous trouverons des densités surfaciques de charge, positives sur la face d’entrée, négatives sur la face 
de sortie, ce qui est précisément le comportement de la divergence de P (au signe près) dans ce cas. 
Bien sûr, comme nous ne manipulons que des quantités moyennées à l’échelle macroscopique, nous 
avons une répartition continue de charges qui varie sur une échelle de l’ordre de sọ. Cette échelle étant 
négligeable par rapport aux dimensions caractéristiques du problème, on pourra toutefois assimiler 
cette distribution de charges à une répartition surfacique. 
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Polarisation 


densité 


Figure 1.1: Répartition de charges dans un milieu uniformément polarisé. A l’intérieur du milieu, les charges de 
molécules voisines se compensent exactement. En revanche, sur les faces du milieu, apparaissent des densités surfaciques 


de charges. En grisé, on a représenté deux volumes de calcul de la densité moyenne de charges. 
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Ecrivons maintenant le terme d’ordre 2, dont il est d’ores et déjà évident qu’il fera intervenir la 
densité de quadripôles. Après quelques réarrangements, on a: 


l— = ~ 
p® = 52 3y) ôi |9 dmompiEmpiW (E rm) ? : (1.29) 
j i m 


> 


Dans le crochet le plus intérieur, on reconnaît une composante de $ m, ämW, c’est à dire de la densité 
moyenne de quadripôle Q. On a donc, en recourant un moment aux notations d'Einstein, 


1 
p? = 5050 Qi . (1.30) 


En posant, comme nous l’avions déjà fait dans la quatrième partie, 


V- Qj = iQji , (1.31) 
on peut écrire: 
1 
oP =V (V: Q). (1.32) 


En regroupant enfin avec le terme d’ordre 1, nous allons trouver: 
1 
p=-V:(P-5V.Q), (1.33) 
le premier résultat essentiel de ce paragraphe. 


Densité de courant 


Nous allons maintenant procéder de la même manière pour la densité de courant lié. Nous développe- 
rons, dans l’expression (1.21), la fonction W en puissances de £. Toutefois, nous verrons qu’il suffit de 
pousser le développement à l’ordre un pour trouver les termes dipolaires magnétiques et quadripolaires 
électriques. Nous écrirons donc: 


; .(0) (1 
= +50. (1.34) 
Le premier terme s'écrit simplement: 
.(0 y 
m, 6B 


En isolant la somme sur 8, dont la fonction W peut être sortie, on voit immédiatement intervenir: 


d dp 
=E. 1.36 
a } ImBËmE dt ( ) 


En constatant enfin que W ne dépend pas du temps, on a: 


0) _ 3P 


Je = -r (1.37) 


L'interprétation physique de ce terme est, là aussi, transparente. Si la polarisation du milieu varie, 
c’est que les molécules se déplacent ou se polarisent de façon différente. Cela résulte bien sûr en des 
déplacements de charges. Ils sont à l’échelle microscopiques, mais, comme toutes les molécules d’un 
même voisinage voient leur polarisation varier de la même manière, ces courants ont une moyenne non 
nulle à l’échelle macroscopique. 


302 CHAPITRE 1. EQUATIONS DE MAXWELL DANS LA MATIÈRE 


Le terme d’ordre 1 va nous demander un peu plus d’efforts. Il s'écrit en effet: 


3 La 5 dme (Emo : VW (r — rm)) Emp | (1.38) 
m,B 


Comme nous l’avions fait en calculant le champ de dipôle magnétique et du quadripôle électrique, 
nous allons mettre artificiellement ce terme sous la forme d’un double produit vectoriel (lanalogie 
entre les deux calculs est bien sûr loin d’être fortuite). On écrit pour cela: 


(Emp: VW rm) Ëms = 3 [Ems VW — rm) Emp- Ems (VW (r — rm) - Ëms)] 


1 | 
ES (Em :VW(r-rm)) Emo + mg (VWE = rm): Emp) | (1.39) 
et donc: | 7 
wO =j 4", (1.40) 
avec: 1 
jP 5 X dmo VW x Em x Emp] ; (1.41) 
m,ß 


l’autre terme étant défini pour compenser les termes additionnels introduits dans le premier. En 
isolant la somme sur m, en sortant la fonction W de la somme sur B, nous faisons apparaître le 
moment magnétique de la molécule m, D 8 ImBËmE X mg. Nous avons donc: 


jP =Y VW x mm. (1.42) 


Le moment magnétique de la molécule ne dépendant pas de la position dans l’espace, nous pouvons 
regrouper ces termes en faisant apparaître la densité macroscopique de moment magnétique: 


jP =VvVxM. (1.43) 


L'interprétation physique de ce terme est très similaire à celle de la densité de charges. Considérons 
un barreau uniformément aimanté d’axe Oz, tel que celui représenté sur la figure 1.2. Nous pouvons 
remplacer chacun des dipôles magnétiques de ce barreau par une petite boucle carrée de courant, 
dont la taille est égale à la séparation entre boucles voisines. Toutes ces boucles sont parcourues 
par le même courant. Si nous considérons un point arbitraire dans le milieu (ou plutôt un voisinage 
d’extension sọ, les courants de boucles adjacentes s’annulent exactement: il n’y a pas de courants 
macroscopiques dans un milieu uniformément aimanté. En revanche, si nous considérons des points 
proches de la surface, les courants ne sont plus compensés. Il apparaît un courant de surface, ce qui 
est précisément l’aspect du rotationnel de l’aimantation comme on s’en convaincra aisément. Vu de 
l'extérieur, un barreau aimanté a donc la même répartition de courant qu’un solénoïde. On justifie 
ainsi l’évidente similitude des lignes de champ de ces deux objets. Notons que la densité de courant 
ainsi obtenue peut être considérable, de l’ordre de 106 A/m pour des aimants ordinaires. Elle résulte 
en effet de l’addition cohérente d’un très grand nombre de courants atomiques. 

Traitons maintenant le second terme du courant à l’ordre 1. Sa composante j s'écrit: 


a” 1 : r 
i F5 9 yo ImB EmpidiWEms; + >D EmgiðiW Emgj| - (1.44) 
m, B i i 


On reconnaîtra aisément dans cette forme la composante j d’une dérivée par rapport au temps d’une 
quantité égale à: 


1 
30 5 ImBËmBiËmE; ) (1.45) 
m, 8B 
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Figure 1.2: Section d’un barreau uniformément aimanté et représentation des courants microscopiques. Ils se com- 
pensent exactement, sauf au voisinage de la surface. Vu de l’extérieur, le barreau a le même champ magnétique qu’un 


solénoïde. 
c’est à dire la dérivée par rapport au temps de la divergence du champ de quadripôle: 


j'5=-55V' Q. (1.46) 


Cette dérivée par rapport au temps, liée aux mouvements de charges imposés par une redistribution 
de la densité de quadripôles, se regroupe facilement avec le courant d’ordre 0 et on a finalement: 


o 


1 
-2 (P-3v Q) +y xM. (1.47) 


je 
Ceci est le deuxième résultat essentiel de ce paragraphe. Nous avons rempli totalement notre pro- 
gramme en exprimant pẹ et je en fonction des dérivées spatiales et temporelles de M et de P — iV -Q. 
On constate d’ailleurs que les densités de dipôles et quadripôles électriques apparaissent toujours sous 
la forme de la même combinaison. Nous avons conservé la densité de quadripôles pour la cohérence de 
nos développements. Il est toutefois évident qu’elle jouera un rôle négligeable par rapport à la densité 
dipolaire, à moins que celle-ci ne soit nulle. 

Nous avons totalement négligé, dans cette approche, les mouvements d’ensemble des molécules. Si 
on tenait compte correctement dans ce qui précède des termes en tm, on montrerait que la densité de 
charges n’est pas modifiée(r;, n’y apparaît pas), mais qu’il apparaît un terme convectif dans la densité 
de courants liés: 


TOR 
w= > 


où V est la vitesse d'ensemble locale des molécules. On comprend bien en effet que le transport 
macroscopique d’une densité de polarisation soit équivalent à un courant. 


(p-5v.0)+vxm-vx Vx(P-;V:Q) ; (1.48) 


1.3 Equations de Maxwell macroscopiques 


Nous allons maintenant utiliser les expressions précédentes des charges et courants liés pour réécrire 
les équations de Maxwell à l'échelle macroscopique. 
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1.3.1 Déplacement électrique, Induction magnétique 


Les équations de Maxwell homogènes restent bien sûr inchangées dans les opérations de moyennage: 


0B 
VXxE = —-— 1.49 
x GE (1:49) 
V-B = 0 (1.50) 
L’équation de Maxwell-Gauss se réécrit: 
VE pkio (1.51) 


où p est, rappelons-le, la densité de charges libres moyennée. En remplaçant pe par l'expression (1.33), 
on voit que cette équation peut se mettre sous la forme: 


V-D=p, (1.52) 


où le vecteur D, appelé déplacement électrique, est défini par: 
1 
D=60E+P-5V-:Q. (1.53) 


Bien sûr l'introduction de ce vecteur ne fait, à ce stade, que simplifier les écritures. Il faudrait pourvoir 
écrire explicitement les densités de polarisation pour lui donner un sens utile. 

Finalement, l’équation de Maxwell ampère peut s’écrire, en remplaçant les courants liés par leur 
expression (1.47), 


$ (e-v evm] (1.54) 


1 
VS 
3 Hoj + ot 2 ðt 


Eoc? 


En regroupant les dérivées par rapport au temps, on peut faire apparaître le déplacement électrique 
D. En regroupant les termes en rotationnel, on peut finalement mettre cette équation sous la forme: 


ðD 
VxH=;j+— 1.55 
en introduisant l'induction magnétique H définie par: 
B 
H=—-M. (1.56) 
Ho 


Nous avons finalement obtenu, par de simples jeux de réécriture, quatre équations qui ont à peu près 
la forme des équations de Maxwell et qui ne font apparaître que les densités de charges et de courants 
libres, qui sont sous le contrôle de l’expérimentateur. La difficulté est bien sûr que ces équations 
sont écrites en fonction de quatre champs: les champs électriques et magnétiques traditionnels, le 
déplacement électrique et linduction magnétique (ces noms ont été donné historiquement très tôt 
dans le développement de lélectromagnétisme et ont été conservés depuis). Il n’y a donc pas de 
solution unique à cet ensemble d'équations, sous déterminées. Ce n’est qu’en précisant les relations 
entre les densités de polarisation et les champs que nous pourrons exprimer les deux nouveaux champs 
en fonction des champs électriques et magnétiques et obtenir un ensemble de quatre équations ne 
portant que sur deux champs de vecteurs, qu’il devrait être possible de résoudre ensuite. 
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1.3.2 Considérations énergétiques 


Nous terminerons ce chapitre par quelques brèves remarques sur l’énergétique. Il est clair que des 
densités d'énergie doivent être associées aux densités de polarisation et que le transport de polarisation 
doit contribuer au transport d'énergie. En fait, les bilans d'énergie dans la matière sont complexes 
puisqu'ils doivent faire intervenir tout autant les énergies associés aux champs et polarisations que 
l’énergie de la matière elle même. Des phénomènes comme l’électrostriction, par exemple, (la matière 
devient plus dense quand on lui applique un champ magnétique) ne peuvent être correctement compris 
que dans une approche thermodynamique globale. 

Nous ne tenterons pas cette approche ici et nous nous contenterons d'établir, à partir des équations 
de Maxwell macroscopiques, une équation ayant une forme similaire au bilan d'énergie dans le vide 
(vecteur de Poynting). Nous postulerons alors l'identification des différents termes de cette équation 
à une densité d’énergie électromagnétique et à un vecteur décrivant le flux d'énergie. 

Nous procéderons en fait comme on le fait pour les équations de Maxwell dans le vide. A partir 


de Maxwell Ampère, on écrit: 


j=vxHn- 2 (1.57) 


et on en déduit la densité de puissance cédée par les champs aux courants libres, j - E (lexpression 
de la force de Lorentz s’exerçant sur les porteurs libres fait bien sûr intervenir les champs ordinaires). 
Ona 


ðD 
En remarquant que: 
E. (VxH)=H.(VxE)-V.(ŒExH), (1.59) 
et en utilisant la première équation de Maxwell, on a: 
oD 0B 


Cette équation a exactement la forme de l’équation bilan dans le vide. j- E étant la puissance cédée 
par le champ aux charge libres et donc aussi la puissance cédée par les générateurs au champ, on peut 
interpréter 

II=ExH (1.61) 


comme le vecteur dont le flux à travers une surface représente le transport d’énergie à travers cette 
surface. Il s’agit donc du vecteur de Poynting dans la matière. Finalement, le terme 

oD oB 

E. — +H. — 1.62 

ot ot 
pourrait être interprété comme la dérivée par rapport au temps de la densité d'énergie électroma- 
gnétique. Dans le cas général, sans connaître le lien entre polarisation et champ, on ne peut préciser 
davantage la densité d'énergie électromagnétique. On peut cependant analyser un peu plus en détail 
la signification physique des termes, en particulier électriques. Le premier terme peut en effet s’écrire 


.-— = =o +E. —. 

ðt l2 ðt 
La première dérivée n’est autre que celle de la densité d'énergie électrostatique ordinaire. Le deuxième 
terme peut s’écrire: 


(1.63) 


oP 
ot 
si on suppose le matériau dépourvu de propriétés magnétiques et donc le courant lié seulement 
à la variation temporelle de la polarisation électrique. Il s’agit donc simplement de la puissance 


E =E.j. (1.64) 
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que le champ fournit à la matière pour changer sa polarisation. Ce changement de polarisation 
s'accompagne effectivement de courants macroscopiques produits par des forces de Lorentz qui tra- 
vaillent. L'interprétation physique de la partie électrique de cette équation bilan est donc très claire: 
la variation dans le temps de l’énergie électrique compense la puissance cédée aux courants macro- 
scopiques ou aux courants liés résultant des changements de polarisation. 


Chapitre 2 


Réponse linéaire 


Nous allons pouvoir donner un sens physique aux équations établies dans le chapitre précédent en 
précisant les relations entre les densités de polarisation et les champs. Il paraît assez naturel que, dans 
la plupart des milieux, les polarisations électriques ou magnétiques répondent aux champs appliqués. 
De façon très générale, on doit pouvoir, avec un modèle microscopique du milieu, écrire les densités 
de polarisation en fonction des champs. Si les champs appliqués ne sont pas trop grand, cette relation 
est a priori linéaire. Dans la plupart des matériaux, à l'exception notable des ferromagnétiques et des 
ferroélectriques, les polarisations s’annulent en l’absence de champ. On doit donc pouvoir écrire une 
relation linéaire homogène entre les polarisations et les champs. Cette relation doit se mettre sous la 
forme d’un produit de convolution faisant intervenir la fonction de Green du système, ou encore sa 
réponse percussionnelle. Nous retrouverons donc des points du formalisme assez semblables à ce que 
nous avions utilisé pour établir l'expression des potentiels retardés dans la troisième partie de ce cours. 
Plutôt qu’un produit de convolution, nous préférerons écrire de simples relations de proportionnalité 
en introduisant les composantes de Fourier des différentes quantités. Nous définirons alors la notion 
de susceptibilité. L'ensemble de ces notions fera la matière du premier paragraphe. 

Dans le second paragraphe, nous passerons en revue rapidement quelques modèles microscopiques 
de polarisabilité électrique ou magnétique. C’est en effet par un mécanisme de polarisation, comme 
celui que nous avons déjà rencontré pour le modèle de Thomson, que chaque molécule acquiert un 
dipôle sous l'influence du champ appliqué. 

Si le milieu était très dilué, il n’y aurait aucun problème pour exprimer la susceptibilité, quantité 
macroscopique, en fonction de la polarisabilité, quantité microscopique. En fait, les choses ne sont 
pas aussi simples. Le champ “vu” par chaque molécule est la somme du champ extérieur, macro- 
scopique, et du champ rayonné par les molécules immédiatement voisines. Ce champ étant un champ 
microscopique, il n’est pas convenablement décrit dans notre formalisme. Nous apprendrons, dans 
le troisième paragraphe de ce chapitre, comment on peut contourner cette difficulté et exprimer, au 
moyen d’hypothèses très générales et très bien vérifiées, les champs “locaux” en fonction des champs 
macroscopiques. Nous pourrons alors écrire simplement les susceptibilités en fonction des polaris- 
abilités et de la densité numérique du milieu. 

Avec ces nouveaux outils, nous reviendrons sur les bilans énergétiques dans la matière. Nous mon- 
trerons en particulier que la partie imaginaire de la susceptibilité décrit très simplement les échanges 
d'énergie entre champ et matière. Nous verrons que, dans la plupart des matériaux, la matière ab- 
sorbe le champ. Nous montrerons que, à certaines conditions, un milieu atomique renforce le champ 
incident. Nous retrouverons ainsi, de manière très élémentaire, le principe de l’émission stimulée, à la 
base du fonctionnement des lasers. 

Le dernier paragraphe de ce chapitre sera consacré à l’établissement des relations de Kramers- 
Krônig. Nous verrons que la simple causalité (la polarisation ne peut répondre avant l’application du 
champ) impose des relations très fortes entre les parties réelles et imaginaires de la susceptibilité, entre 
dispersion et absorption. Ces relations sont très générales dans la théorie de la réponse linéaire ou des 
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fonctions de Green et peuvent être appliquées à bien d’autres domaines que l’électromagnétisme dans 
la matière. 


2.1 Susceptibilités 


Nous essaierons d’abord d'écrire les relations linéaires les plus générales possibles entre polarisations et 
champ. Nous commencerons par formuler quelques hypothèses raisonnables. Elles ne sont pas toutes 
indispensables, mais elles facilitent beaucoup l’algèbre sans beaucoup restreindre la généralité. Nous 
supposerons donc que: 


e Pet j ne dépendent que de E. Pour la première hypothèse, nous négligerons les effets magnétiques 
sur la polarisabilité électrique des molécules. Les vitesses des électrons dans les molécules, prin- 
cipalement responsables de la polarisabilité électrique, sont en effet faibles par rapport à la 
vitesse de la lumière. L’action des forces magnétiques est donc bien négligeable. Pour la seconde 
hypothèse, nous l’introduisons pour décrire la conductivité du matériau. Nous nous pencherons 
surtout sur la propagation d’ondes dans les milieux homogènes, d’où les générateurs sont ex- 
clus, et où les charges ne se mettent en mouvement que sous l’action du champ électrique. 
Là aussi, nous négligerons l’influence des forces magnétiques et des phénomènes tels que la 
magnétorésistance ou l’effet Hall. Ils ne sont guère observés que dans les semi-conducteurs, et 
pourront être traités en perturbation par rapport à ce que nous établirons ici. 


e M ne dépend que de B. Cette hypothèse est symétrique de la précédente. 


e les densités de quadripôles sont tout à fait négligeables. Tout milieu présentant au moins une 
polarisabilité électrique dipolaire induite, cette hypothèse est plus que raisonnable. 


e toutes les polarisations s’annulent avec le champ qui en est la cause. On néglige donc les 
matériaux où apparaissent des polarisations permanentes, ferromagnétiques ou ferroélectriques. 
Ces matériaux présentant tous de l’hystérésis (l’état dépend de toute l’histoire du matériau), ils 
ne peuvent être abordés dans un cadre simple. 


e la relation entre polarisations et champs est locale. La polarisation ne dépend que du champ, 
pris à un instant arbitraire, au même endroit. Nous négligerons phénomènes de transport et 
corrélations diverses. 


e la relation est causale. La polarisation ne dépend du champ que dans le passé. 
Les relations que nous allons écrire ayant les mêmes formes pour P, j et M, nous ne les écrirons 
systématiquement que pour P. Nous voulons une relation linéaire homogène entre P et E. Elle 


peut s’écrire en termes d’une fonction de Green. G(r,t) étant, à des facteurs dimensionnels près, la 
polarisation créée au point r par un champ impulsionnel en t = 0, on pourra écrire: 


P(r,t) 


-f G(r, T) E(t- rT)dr. (2.1) 


Il n’y a aucune raison a priori pour que P et E aient la même direction. Un matériau cristallin, 
par exemple, ne répond pas de manière identique dans les différentes directions propres de sa maille 
cristalline. La fonction de Green G est donc a priori un tenseur de rang 2, qui ne se réduira à un 
scalaire que pour des milieux isotropes. La causalité, pour sa part, implique que G s’annule pour 
T < 0. On vérifiera d’autre part que, avec les normalisations employées, G a la dimension d’une 
fréquence (son intégrale sur le temps est sans dimension). 
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Cette relation de convolution est d’un maniement difficile. On peut la transformer en une simple 
relation de proportionnalité en introduisant les transformées de Fourier temporelles. En posant 


P(r,t) = 5 Î P (eit dw (2.2) 


et une définition équivalente pour E, on peut écrire: 
1 ; 
P(r) = = | Pediat 


— E0 i — iwt 
= [Gen E(r,t—rT)e“" dtdr 


= am | G(r, T) Er T tdr du (2.3) 
En remarquant alors que: 
J dté tt = 976(w — w") , (2.4) 
on a 
Po(r) = ex (w, r): Ev , (2.5) 


où x° est évidemment la transformée de Fourier de la fonction de Green: 
1 , 
e(w,r = = | Grr) dt. 2.6 
xor) = = j ae (2.6) 


Nous appellerons x° la susceptibilité du matériau. L’exposant e a été ajouté pour distinguer plus tard 
la susceptibilité électrique de la susceptibilité magnétique. C’est une fonction de la fréquence, qui 
exprime la relation de proportionnalité entre les composantes de fréquence de P et de E. C’est aussi 
une fonction de la position, si le matériau n’est pas homogène. C’est enfin, comme G, une quantité 
tensorielle de rang 2, sans dimensions. On notera à ce propos que P, et E„ ont la dimension d’une 
polarisation ou d’un champ électrique multipliés par un temps. 

Nous considérerons surtout des milieux isotropes. Nous écrirons donc à partir de maintenant 
x? comme un simple scalaire xê. La plupart de nos raisonnements pourraient être généralisés au 
cas tensoriel par une simple réécriture. x? est a priori une quantité complexe. La polarisation ne 
répondant pas instantanément au champ, il doit exister un déphasage non nul entre leurs composantes 
de Fourier. Nous aurons souvent à distinguer les parties réelles et imaginaires et écrirons donc x‘ sous 
la forme: 

L=x +ix, (2.7) 
où ye et x” sont des quantités réelles. 

Ce que nous venons de faire pour P, nous pouvons aussi le faire pour M et introduire une 
susceptibilité magnétique x” définie par: 

m 
My, = —— Bu. (2.8) 
avec ces notations, la susceptibilité magnétique est elle aussi sans dimensions. Enfin, nous pouvons 
introduire une conductivité à la fréquence w en posant: 


do = ou(r)E Ê (2.9) 


Notons qu’à la différence des précédentes, cette quantité n’est pas sans dimensions. Pour des raisons 
principalement historiques, on écrit une conductivité plutôt qu’un susceptibilité à proprement parler. 
Notons que cette définition peut être associée à l’équation de conservation de la charge écrite en termes 
des composantes de Fourier: 

iwpw = V :j. (2.10) 


Nous pouvons ainsi déterminer aussi la densité de charges libres en fonction du champ électrique. 
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2.2 Polarisabilité électrique 


De manière évidente, si ces relations de susceptibilités existent, c’est que chaque molécule du mi- 
lieu prend un petit moment dipolaire magnétique sous l’influence du champ magnétique et un petit 
moment dipolaire électrique sous l'influence du champ électrique. On doit donc pouvoir déduire les 
susceptibilités d’un modèle microscopique. Nous allons nous employer, dans ce paragraphe et le suiv- 
ant, à passer rapidement en revue des modèles microscopiques de polarisabilité. Nous attendrons le 
dernier chapitre de cette partie pour donner un modèle de conductivité, plus phénoménologique que 
physique. Nous commencerons donc par la polarisabilité électrique. Nous chercherons donc à écrire le 
dipôle moyen pris par une molécule pm sous l'influence d’un champ électrique Em sous la forme: 


Pm = 007, Em . (2.11) 


Nous noterons le champ Em. Il s’agit en effet du champ microscopique vu par la molécule, non 
du champ macroscopique qui intervient dans les équations de Maxwell moyennées. Notons aussi 
qu'il s’agit d’une réponse moyenne. Dans les susceptibilités n’apparaissent que des quantités macro- 
scopiques, moyennées sur un grand nombre de molécules. Nous pourrons par exemple recourir à la 
thermodynamique pour écrire des moyennes d’ensemble sur un très grand nombre de molécules sous 
l’action conjointe du champ appliqué et de l’agitation thermique. La polarisabilité peut se présenter 
sous deux formes: polarisabilité induite ou d'orientation. 


2.2.1 Polarisabilité induite 


Les atomes ou les molécules plongés dans un champ électrique oscillant acquièrent un moment dipolaire 
induit. Le modèle le plus simple est donné par le modèle de Thomson de l’électron élastiquement lié, 
dont nous avons établi la surprenante validité dans le domaine quantique. On se reportera donc à la 
quatrième partie pour l’expression de la polarisabilité œ; associée. 


2.2.2 Polarisablilité d’orientation 


En plus de la polarisabilité induite, certaines molécules présentent un moment dipolaire permanent 
(interdit en revanche pour les atomes). C’est par exemple le cas pour les molécules des solvants polaires 
comme l’eau, l’ammoniaque ou HCI. En l’absence de champ appliqué, les orientations des dipôles sont 
aléatoires. En moyenne, il n’existe pas de polarisation t. Sous l'influence d’un champ électrique et de 
la relaxation, les dipôles du milieu vont tendre à s’aligner avec le champ. Il apparaîtra donc un dipôle 
induit, proportionnel au champ si celui-ci n’est pas trop rapide. 

Il est évident que, pour un champ harmonique, le dipôle moléculaire moyen ne pourra pas suivre 
le champ électrique s’il oscille à trop haute fréquence. Il faut que la période du champ soit plus 
longue que le temps de relaxation caractéristique du milieu, c’est à dire le temps pour qu’un dipêle, en 
moyenne revienne à l'équilibre thermodynamique. Ce temps de relaxation est en général très court, 
de l’ordre du temps entre collisions dans les liquides, donc inférieur à la picoseconde. La polarisation 
a donc le temps de s'établir dès que la champ a une longueur d’onde supérieure à celles de l’infrarouge 
proche. On peut alors se contenter d’un modèle statique, que nous allons détailler plus loin. A très 
haute fréquence, la molécule ne répond pratiquement plus (en moyenne statistique) au champ appliqué 
et la polarisabilité s’annule. Entre les deux régimes, c’est à dire dans le visible et proche infrarouge, 
on à une situation plus complexe où le module et la phase de la polarisabilité (qui est évidemment 
une quantité complexe) évoluent rapidement. 

Nous allons maintenant calculer la polarisabilité statique (ou basse fréquence) d’un ensemble de 
molécules polaires. Nous traiterons le problème sans recourir à la mécanique quantique, ce qui serait 

1Dans les matériaux ferroélectriques, les dipôles sont associés à une déformation permanente de la maille cristalline, et 


il peut apparaître une polarisation en l’absence de champ appliqué. Nous avons explicitement exclu ce type de matériau 
de notre étude 
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Figure 2.1: Dipôle moyen en fonction du paramètre xi. 


indispensable pour une approche rigoureuse. Le dipôle électrique, en projection sur un axe, est une 
quantité quantifiée. Nous verrons, pour la polarisation d’orientation magnétique, comment tenir 
compte en principe de cette quantification. Elle ne modifie pas l’aspect qualitatif des choses et n’altère 
qu’un facteur numérique proche de l’unité portant sur la polarisabilité. Pour une discussion qualitative, 
nous pourrons donc nous contenter d’une approche classique. 

Il est évident par symétrie que le dipôle est aligné avec le champ, que nous prendrons selon Oz. 
Si po est le module du dipôle moléculaire permanent, l’énergie d'interaction d’une molécule dont l’axe 
(et donc le dipôle) font un angle 0 avec l’axe Oz est simplement H = —poEm cos0. On peut alors 
utiliser la statistique de Boltzmann pour calculer la composante selon z du dipôle moyen: 


1 
D = Do I -ii cos Ô , (2.12) 


avec 8 = 1/kT. Z est la fonction de partition. L'intégrale porte sur toutes les configurations possibles, 
c’est à dire sur tous les angles 0, o des coordonnées sphériques. L'intégration sur @ est un simple facteur 
27, absorbé par un facteur identique dans la fonction de partition. On a donc: 


5- J sin 0 dû cos 0 exp(poEm cos 0/kT) 


Po Tam Od8 explpoE cos OT) Co 
Ces intégrales se calculent de façon triviale. En posant 
f= pes (2.14) 
rapport de l’énergie du dipôle dans le champ à l’énergie thermique moyenne, on trouve: 
D = po (cone = =) ; (2.15) 


La fonction coth£ — À est représentée sur la figure 2.1 La relation que nous obtenons ainsi est non 
linéaire. Pour des très grands champs, tels que l’énergie du dipôle dans le champ soit beaucoup plus 
grande que l’énergie thermique, le dipôle moyen sature à une valeur po. En fait toutes les polarisabilités 
d'orientation présentent cette saturation triviale quand toutes les molécules du milieu sont alignées. 
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Nous ne trouverons de polarisabilité linéaire qu’en allant dans le domaine des tout petits champs 
électriques. Si € 1, nous pouvons en effet faire un développement limité en puissances de €. Après 
quelques manipulations algébriques élémentaires, on trouvera: 


® £ 
et donc une polarisabilité d'orientation: 
2 
Po 
= 2.17 
Hr a a 


homogène à un volume comme il se doit. L’hypothèse de champ faible n’est pas trop contraignante. 
Si nous prenons un dipôle de l’ordre de 3 debyes, 107 Cm, dipôle très grand par rapport aux 
dipôles moléculaires ordinaires, la limite des champs faibles correspond à Em 10° V/m. Pour de 
tels champs, la plupart des matériaux ont déjà donné lieu à un claquage (les rigidités diélectriques 
typiques des matériaux les plus résistants, comme le Téflon, sont de quelques dizaines de kV/mm, ou 
107 V/m)! 

Comparons, en ordres de grandeur, la polarisabilité d'orientation à la polarisabilité induite du 
modèle de Thomson. En posant l’ordre de grandeur de po = ape où e est la charge élémentaire et ag 
le rayon de Bohr, on pourra écrire: 


age? e 1 87 3 
2 = — — à . 
3eokT  Sreoao kT 3 ° 


ap (2.18) 
Dans la première fraction du membre de droite, on reconnaît l’énergie de liaison atomique, de l’ordre 
de la constante de Rydberg R. Le dernier terme est de l’ordre du volume de la molécule, qui est 
précisément l’ordre de grandeur de la polarisabilité induite a; dans la limite statique, qui s’applique 
largement ici. On a donc finalement: 


Qo R aies 

er dd (2.19) 
Pour toute température réaliste, la polarisabilité d'orientation domine largement la polarisabilité in- 
duite. Celle-ci ne jouera donc de rôle que pour les molécules non polaires, ou à très haute fréquence. 
Dans ce cas la polarisabilité d'orientation est pratiquement nulle. La polarisabilité induite, qui met en 
jeu des constantes de temps atomiques et non des constantes de temps de thermalisation, peut encore 
être importante. 


2.3 Polarisabilités magnétiques 


Nous chercherons ici à écrire le moment magnétique moléculaire moyen en fonction du champ appliqué, 
sous la forme: 
a 
m= — Bn. (2.20) 
Ho 
Avec ces notations, a” a bien la dimension d’un volume. Là aussi Bm est le champ “vu” par la 
molécule m qu’il nous faudra déterminer en fonction des champs macroscopiques. 


2.3.1 Diamagnétisme 


Modèle classique 


La première source de polarisabilité magnétique est une polarisabilité induite que présentent toutes 
les molécules ou atomes n’ayant pas de dipôle magnétique permanent. Pour comprendre l’origine 
de cette polarisabilité, nous considérerons un modèle atomique très simple. Un atome est constitué 
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de deux électrons orbitant autour du noyau sur une orbite de rayon r, perpendiculaire à l’axe Oz, 
parcourue en sens inverse par les deux électrons. Si nous ne considérions qu’un électron (atome 
d'hydrogène), nous aurions un moment magnétique orbital permanent. Avec ce modèle très naïf (il 
néglige l'interaction coulombienne entre les deux électrons) de l’atome d’hélium, on n’a pas de moment 
magnétique permanent parce que les moments associés aux deux électrons se compensent exactement. 

Appliquons à cet atome un champ magnétique uniforme, statique, B,, dirigé selon Oz. Ce champ 
doit croître, lentement à l’échelle des temps atomiques, depuis la valeur nulle. Comme tout champ 
magnétique variable, il génère un champ électrique. Celui-ci est visiblement, en coordonnées cylin- 
driques, dirigé selon ug: il tourne autour de l’axe. Ce champ électrique va donc ralentir un des électrons 
et accélérer l’autre. Il va, en un mot, briser la compensation des moments magnétiques orbitaux et 
faire apparaître un moment magnétique induit ?. 

Précisons cet argument. Le potentiel vecteur A s'écrit, toujours en coordonnées cylindriques: 


1 
A= 3 B(t)rue ; (2.21) 


où B(t) est le module instantané du champ, passant adiabatiquement de 0 à Bm. Le champ électro- 
moteur s'écrit donc: 


1 dB 
= —-r— š 2.22 
E 5” 7 ug ( ) 


En supposant, ce qui est une excellente approximation, que l'orbite des électrons reste invariante et 
que seul le module de la vitesse de l’électron change, on trouve que cette modification de vitesse est 
(pour l’électron tournant dans le sens direct autour de B): 


q dB 


ET 
¥ Im J dE’ 


(2.23) 


l'intégrale portant sur toute la phase de variation du champ magnétique et q étant la charge (négative) 


de l’électron. On a donc: B 
Dm 
Av = — 2.24 
5 Im ( ) 


indépendamment de la loi de variation de B. Il s’agit donc d’un résultat universel. L’autre électron 
a évidemment une variation de vitesse opposée. Il en résulte une variation des moments magnétiques 
associés aux deux électrons et un moment magnétique global: 


2 
m =- Bm . (2.25) 
4m 
On en déduit la polarisabilité diamagnétique: 
2 
m q Ho 2 
= PRIS, 2.26 
aq Am 4 Ti ( ) 


où la somme est à étendre à tous les électrons (au moins deux) de l’atome. 

Nous avons bien une polarisabilité linéaire. Elle a été calculée ici pour un champ statique. Les 
constantes de temps de mise à l’équilibre des orbitales atomiques étant dans le domaine optique, cette 
expression de la polarisabilité diamagnétique doit rester valable jusqu’à des fréquences très élevées. La 
polarisabilité diamagnétique est négative. Le moment induit est opposé au champ magnétique. Cela 
implique qu’une telle molécule aura, pour minimiser l’énergie, tendance à fuir les régions de champs 
forts. C’est effectivement le comportement des substances diamagnétiques, dominées par ce type de 
polarisabilité. 

?La variation de vitesse des électrons lors du branchement du champ magnétique est souvent appelée “effet bétatron” 
en référence à l’un des premiers accélérateurs de particules. On utilisait un champ magnétique croissant pour accélérer 


des électrons orbitant dans ce champ. L'énergie finale étant limitée par le champ maximal, les performances étaient plus 
que limitées et le principe fut rapidement abandonné 
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Modèle quantique 


Le modèle très naïf du paragraphe précédent ne peut nous satisfaire. Pour essayer de préciser les 
choses, nous allons nous pencher sur un atome à un électron plongé dans un champ magnétique. Nous 
essaierons de calculer le dipôle magnétique induit. 

Le hamiltonien de l’atome dans le champ est, comme nous l’avons déjà vu dans la partie précédente: 


(P - 4A)? 
2m 


H = +V(R), (2.27) 
où P et R sont les opérateurs position et impulsion, et A le potentiel vecteur, dépendant de R. V est 
simplement le potentiel coulombien. Le moment magnétique peut s’écrire: 


m= iR xv, (2.28) 


où v est l'opérateur vitesse, qui s'écrit, comme en mécanique analytique classique: 


P-qA 
E (2.29) 
m 


En notant que R x P = L est le moment cinétique, on a donc: 


m=- [L-R x A] l (2.30) 
Evaluons la valeur moyenne de cet opérateur dans l’état fondamental |18} du hamiltonien libre (L = 0). 
C’est bien sûr une valeur moyenne quantique qu’il faudra injecter dans nos équations de Maxwell 
macroscopiques. Cet état est sans moment angulaire moyen et donc sans dipôle magnétique permanent 
(ce qui ne serait pas le cas d’un niveau P, par exemple). Il ne reste donc que la moyenne du terme en 
A. En utilisant une des expressions possibles du potentiel vecteur d’un champ uniforme ( iB x R et 
en notant que le champ magnétique, uniforme, n’est pas un opérateur, nous trouverons: 


(m) = -L isp? — (R.B)R|1S) . (2.31) 


B étant aligné avec Oz, cette expression se transforme instantanément en remarquant que (15|ZX|1S) 
(1S|ZY |16) = 0: 


qB 2 2 
(m) = -īm SK + Y*|1S) . (2.32) 


On retrouve donc exactement, de manière assez surprenante, l’expression résultant du modèle naïf, 
où il suffit de remplacer r? par la valeur moyenne de X? + Y?. Encore une fois, les modèles les plus 
simples se trouvent confirmés par une approche complètement quantique. 


2.3.2 Paramagnétisme 


Considérons maintenant le cas d’atomes ou de molécules portant un dipôle magnétique permanent (si 
des considérations d’invariance par renversement du sens du temps empêchent les atomes de posséder 
un moment dipolaire électrique permanent, ils peuvent porter un moment magnétique). Les molécules 
ayant un tel moment dipolaire, appelées paramagnétiques, ont en général un électron solitaire, non 
apparié sur son orbitale. C’est par exemple le cas de l’oxygène moléculaire, qui, sous sa forme liquide, 
est fortement attiré vers les zones de champs magnétiques forts. Comme pour les dipôles électriques, 
il doit exister une polarisabilité magnétique, positive, résultant de la compétition entre l’alignement 
des dipôles dans le champ magnétique et l’agitation thermique. 

Si nous considérons le dipôle magnétique comme une quantité classique dont la projection sur un 
axe n’est pas quantifiée, nous pouvons traiter le problème par la statistique classique. La démarche est 
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absolument identique à celle utilisée pour la polarisabilité électrique d'orientation et nous ne donnons 
que le résultat final. En posant: 


moBm 
= 2.33 
où mo est le module du dipôle moléculaire, on obtient: 
= 1 
M = Mo [cote — =] ; (2.34) 


dont le développement pour des champs magnétiques faibles donne une polarisabilité d'orientation: 


2 
m omg 
= : 2.35 
%o 3kT ( l 


Comme il se devait, nous trouvons une polarisabilité positive. L’approximation de champs faibles 
est bien vérifiée pour tous les champs expérimentalement possibles et des températures voisines de 
l’ambiante. En effet, l'amplitude typique des dipôles magnétiques électroniques est le magnéton de 
Bohr, 14 GHz par Tesla en unités de fréquence (on exprime un moment magnétique en unités de 
fréquence en écrivant mB = hv). Une énergie thermique correspond, en fréquence, à une trentaine 
de THz. Les énergies magnétiques sont donc bien négligeables par rapport à l’agitation thermique. 
Notons que le magnétisme nucléaire, dû à lorientation des moments magnétiques des noyaux, est 
encore plus faible, le moment magnétique d’un noyau étant typiquement 2000 fois plus faible que 
celui d’un électron. Bien sûr, ces ordres de grandeur ne tiennent que si on néglige les interactions 
entre moments magnétiques voisins par rapport au champ extérieur. En fait, dans les matériaux 
ferromagnétiques, une interaction d’origine purement quantique entre moments voisins peut, à une 
température suffisamment basse, aligner tous les spins du milieu et créer une aimantation intense. Là 
encore, nous ne nous préoccuperons pas de ce type de substance. 

Comparons à ce point les ordres de grandeur des polarisabilités paramagnétiques et diamagnétiques, 
Qo et ag. On a: 

ao  Uomg/3kT 


+ 2.36 
ad  dagÿlo/4m 20 

En remarquant que l’ordre de grandeur du moment magnétique permanent est 
Mo © qcaao , (2.37) 


puisqu'il correspond à un électron sur une orbite de taille ap parcourue à la vitesse ac, où & est encore 
une fois la constante de structure fine. On a donc finalement: 


ao am R 
aa kT KT. 


(2.38) 


Comme dans le cas électrique, le rapport des polarisabilités d'orientation et induite est de l’ordre 
de l'énergie de liaison atomique divisée par l'énergie thermique. On comprend donc bien que les 
susceptibilités paramagnétiques soient typiquement mille fois plus grandes que les susceptibilités dia- 
magnétiques. 

Cette approche classique, comme pour le dipôle électrique, est a priori insuffisante. En effet, le 
moment magnétique est, en mécanique quantique, à linstar de toutes les observables vectorielles, 
proportionnel au moment cinétique. Sa projection sur l’axe Oz est donc quantifiée. Pour simplifier 
le calcul, nous supposerons que le moment angulaire de notre atome est de Z. L'énergie d'interaction 
magnétique ne peut alors prendre que deux valeurs, wmz, où I, = +h/2 est la projection sur z 
du moment cinétique atomique et wm = 9Bm est la fréquence de Larmor, g étant le coefficient de 
proportionnalité entre le moment magnétique et le moment cinétique, appelé rapport gyromagnétique. 
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Comme seulement deux niveaux d'énergie sont accessibles, on peut écrire explicitement les probabilités 


d’occupation de ces niveaux: 
exp(+ħwm/2kT) 


paee à 2.39 
~ 2coshfwm/2kT ( 
L’aimantation moyenne est donnée simplement par M = (n; —n_)gh/2. On trouve donc: 
—_— għ ħwm 
= — tanh —— . 2.4 
m= tan ET (2.40) 


En développant cette expression pour des champs magnétiques faibles, on trouve la polarisabilité 
quantique d'orientation: 
h?2 2 
m _ HOR g 


2 | 2.41 
Lo = IRT (2:41) 


A la définition près de la valeur du moment magnétique (mo = gh/2), cette expression ne diffère du 
résultat classique que par un préfacteur numérique proche de l’unité. L’essentiel de la physique est 
donc contenu dans l’expression classique. Nous laissons au lecteur le soin d’établir l’expression de la 
polarisabilité pour un spin quelconque. Comme l’indique le principe de correspondance, on retrouvera 
l'expression classique dans la limite des très grands spins. 

Notons encore une fois que nous n’avons établi que les expression statiques des polarisabilités. 
Elles sont cependant valables tant que la période des champs est longue par rapport aux constantes 
de temps d’atteinte de l’équilibre thermodynamique. 


2.4 Lien entre polarisabilité et susceptibilité 


Nous savons maintenant exprimer la polarisation des molécules en fonction du champ “perçu” par 
chaque molécule, Em ou Bm. Si le milieu était très peu dense, l’influence des molécules voisines serait 
négligeable et le champ vu par la molécule serait sensiblement identique au champ macroscopique. La 
polarisation par unité de volume serait alors simplement le produit du moment dipolaire de chaque 
molécule par la densité numérique de molécules (nombre de molécules par unité de volume). On aurait, 
pour la polarisation électrique, P = Npy = Neoaf EE. La susceptibilité serait alors simplement: 


xX° = No“, (2.42) 


manifestement sans dimension. Toutes les quantités écrites ci dessus se réfèrent bien sûr à des com- 
posantes monochromatiques. Pour alléger les écritures, nous négligerons souvent d’écrire explicitement 
les indices w. 

Si le calcul qui précède est correct pour des matériaux très dilués (les gaz par exemple), il ne 
s'applique pas dans la matière dense. En effet, dans ce cas, la molécule “voit” un champ qui est 
la somme d’une composante moyenne, proche du champ macroscopique, et du champ des molécules 
les plus proches. Ce champ est un champ microscopique, qu’il nous faudra représenter correctement 
pour obtenir la susceptibilité. Nous allons en fait, dans les deux prochains paragraphes, nous em- 
ployer à montrer qu’il existe une relation linéaire entre le champ “vu” par la molécule et le champ 
macroscopique. Munis de cette relation, nous pourrons alors évaluer les susceptibilités en fonction 
des polarisabilités. Les cas électriques et magnétiques étant légèrement différents, nous les traiterons 
séparément. 


2.4.1 Cas électrique 


Le problème est donc de déterminer le champ “vrai”, microscopique, “vu” par la particule m. Il 
s’agit d’un champ local, calculé au point précis où se trouve cette molécule, rm. Ce champ doit in- 
clure le champ des sources macroscopiques et aussi le champ créé par toutes les particules du milieu 
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à l’exception toutefois de la particule m elle-même, qui ne peut contribuer à sa propre polarisation. 
Nous voyons poindre ici une différence importante avec le champ macroscopique, qui inclut les con- 
tributions de toutes les molécules y compris m et qui doit être évalué à un point quelconque du 
milieu. 

Dans le champ Em, on peut distinguer deux types de contributions. D’abord celles des particules 
“lointaines”, situées à une distance au moins de sọ, et ensuite la contribution des molécules “proches”. 
Pour distinguer clairement entre ces deux contributions, nous isolerons les particules contenues dans 
une sphère de rayon voisin de sọ centrée sur la molécule m. Il nous faut choisir une sphère pour 
respecter l’isotropie du système. Nous écrirons alors: 


Em = En + Ep, (2.43) 


où l'indice n désigne la contribution des molécules proches et l’indice f celle des particules lointaines 
et des sources macroscopiques. 

La contribution E} des sources lointaines ne pose aucun problème. Elle est essentiellement con- 
stante sur l’ensemble du volume de la sphère. Pour calculer la contribution En, nous pouvons d’abord 
négliger les phénomènes de propagation et raisonner comme en électrostatique. Nous sommes en effet, 
comme sọ est beaucoup plus petit que la longueur d’onde (nous ne nous préoccupons bien sûr que 
d’une composante de fréquence), dans le domaine des champs proches, où le champ du dipôle est 
essentiellement le champ électrostatique. Bien sûr, la propagation devra être incluse soigneusement 
dans la contribution des molécules lointaines. E,, est donc la somme de tous les champs de tous les 
dipôles moléculaires autre que m. L’échelle so étant très grande par rapport aux distances inter- 
atomiques, nous avons un très grand nombre de particules dans notre sphère. Nous ne ferons pas une 
trop grande erreur en calculant le champ Ep, comme si toutes les molécules dans la sphère avaient 
toutes le même dipôle, égal au dipôle moyen à cet endroit, égal donc au dipôle que prendra la molécule 
m dans le champ total. L'opération rigoureuse serait de prendre les dipôles individuels et de moyenner 
les champs produits. Nous préférons ici prendre le dipôle moyen et évaluer le champ produit. 

Nous noterons donc n(p) le champ produit au point rm par un dipôle moyen situé au point rm + p 
(il est évident que ce champ ne dépend que de la distance relative de notre dipôle source et de la 
molécule de référence). Nous pouvons, en nous fondant sur le très grand nombre de particules dans 
la sphère, calculer le champ En par un argument statistique: c’est essentiellement l’intégrale sur la 
sphère du champ produit par une particule en p pondéré par la densité de probabilité P.(p) de trouver 
une particule en ce point: 


Er = I Pe(p}n(p) čp : (2.44) 


On prendra garde, dans cette expression, à ce que Pe est la densité de probabilité conditionnelle de 
trouver une particule à la position p par rapport au centre de la sphère en sachant qu'il y a une 
molécule au centre de la sphère (m). Cette probabilité est manifestement différente de celle de trouver 
une particule en un point quelconque de l’espace. Il est en particulier évident que Pe sera nulle si la 
distance p est plus petite que la “taille” des molécules. Finalement, le champ “vu” par la molécule m 
s'écrira: 


Em =E + | Palomo) dp. (2.45) 


Nous pouvons tenir le même genre de raisonnement pour réévaluer le champ macroscopique. On 
distinguera aussi, pour le champ créé dans la sphère, la contribution des molécules lointaines et des 
molécules proches. La contribution lointaine, Eş, est manifestement la même qu'auparavant. La 
différence essentielle est que nous devons estimer ce champ à un point arbitraire dans la sphère. La 
contribution des molécules proches peut dans ce cas s’écrire: 


Î Ptente)d'p , (2.46) 
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en faisant intervenir cette fois la densité de probabilité P de trouver une molécule en un point arbitraire 
de la sphère (essentiellement la densité numérique pour un matériau homogène). En d’autres termes, 
pour estimer le champ vu par la molécule m, il nous faut exclure le champ de cette molécule elle-même, 
ce qui revient à ne considérer que la densité de probabilité conditionnelle, qui exclut explicitement le 
fait qu’une autre molécule puisse se trouver au centre de la sphère. Pour le champ ordinaire, on prend 
toutes les molécules, y compris m, et on n’exclut pas la probabilité qu’une molécule se trouve au point 
d'observation. On aura donc: 


E-E,;+ | Plomo) dp. (2.47) 


En rapprochant les équations (2.45) et (2.47), nous voyons qu’on peut écrire le champ “vu” par la 
mOlécule en fonction du champ macroscopique et d’une différence d’intégrales qui reste à évaluer: 


En =E+ | (Palp) - P(p)n(p)d'e. (2.48) 


Evaluons d’abord l'intégrale sur P. Pour un milieu isotrope, homogène à l’échelle macroscopique, 
P est à peu près uniforme et égale à la densité numérique N du milieu. L'intégrale de cette quantité 
est donc essentiellement le champ électrique créé par une sphère uniformément polarisée, avec une 
polarisation précisément égale à la polarisation macroscopique P (puisque chaque molécule de la 
sphère a le dipôle moyen). Le calcul de ce champ est un exercice d’électrostatique classique. On 
peut par exemple modéliser la situation par deux sphères uniformément chargées en volume, décalées 
spatialement d’une quantité très petite par rapport à leur rayon. On trouve alors que le champ 
intérieur est uniforme, avec une valeur 


P 

D 

Examinons maintenant l’intégrale sur Pe. Considérons d’abord le cas d’un milieu dense et désor- 
donné comme un liquide. Pe doit alors avoir une symétrie sphérique par rapport à l’origine. Elle est 
certainement nulle à l’origine (les molécules ne peuvent s’interpénétrer). Elle doit ensuite croître et 
atteindre un maximum pour des distances de l’ordre de la distance intermoléculaire moyenne. On est en 
gros sûr de trouver une molécule à une distance moyenne d’une molécule donnée. Le comportement 
ensuite peut être complexe, mais, dans tous les cas, la probabilité conditionnelle tend rapidement 
vers la densité numérique. Au bout de quelques distances moyennes, les corrélations de position 
s’effacent dans les liquides et la probabilité conditionnelle tend vers la probabilité simple. L'intégrale 
sur Pe est donc essentiellement le champ créé en son centre par une distribution de polarisation à 
symétrie sphérique, pratiquement uniforme sauf un “trou” au voisinage du centre. Une application 
élémentaire du principe de superposition implique que ce champ est la somme des champs de deux 


(2.49) 


sphères concentriques de polarisation opposées. Il est donc tout simplement nul. 

Examinons maintenant le cas d’une structure cristalline. Considérons une structure cubique. Pour 
calculer le champ des plus proches voisins, nous avons à sommer 6 champs de dipôles, tous identiques, 
situés en +a sur chacun des axes, a étant la maille cristalline. Supposons, pour simplifier, que tous les 
dipôles soient alignés avec Oz. Les quatre dipôles sur Ox et Oy contribuent à un champ antiparallèle 
à Oz, de module moitié et de direction opposée au champ produit par les dipôles selon Oz. Le champ 
résultant est donc strictement nul. En fait, pour toutes orientations des dipôles et toute structure 
cristalline, le champ résultant de l’intégrale sur Pe sera nul. On a donc, finalement: 


P 
Emn = E + —. 2.50 
m=E+ gz (2.50) 
Le dipôle moyen sera donc: 
Pm = E00 Em . (2.51) 


La densité macroscopique de polarisation s’écrit: 


P = NPpm = ox E . (2.52) 
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En rapprochant ces équations, on trouve enfin l’expression de la susceptibilité en fonction des polar- 
isabilités: 

B Na‘ 

| 1-Noœ/3° 


e 


X (2.53) 


expression valable quelle que soit la nature physique de la polarisabilité. Ce calcul a été établi pour 
la première fois en électrostatique par Clausius et Mosotti, et repris en régime quelconque, indépen- 
damment, par Lorentz et Lorenz. 

Pour des densités très faibles, on peut négliger le terme correctif au dénominateur et on trouve bien 
une susceptibilité Ma. En revanche, pour des milieux denses et des polarisabilités élevées, le terme 
correctif augmente la susceptibilité par rapport à l’extrapolation de celle d’un milieu dilué. Le champ 
créé par les molécules polarisées par le champ tend à renforcer cette polarisation. On peut estimer 
l'ordre de grandeur de cet effet. Les polarisabilités moyennes sont de l’ordre de aÿ (au voisinage des 
basses fréquences), les densités de quelques dixièmes de molécule par ag dans les milieux les plus 
denses. Le terme correctif est donc au plus de quelques dizaines de pour cent. 

A priori toutefois, rien n'empêche qu’un milieu atteigne une densité telle que Na = 3. La sus- 
ceptibilité devrait alors diverger, les molécules s’orientant toutes seules sous l’influence de leur propre 
champ. Les matériaux ferroélectriques présentent ce genre de comportement, mais uniquement à 
fréquence nulle. On ne connaît aucun matériau qui puisse acquérir spontanément une polarisation 
alternative (hélas). On pourrait imaginer remplir ces conditions, par exemple, en partant d’un gaz 
peu dense et en l’examinant au voisinage d’une fréquence de résonance, par exemple de la vapeur de 
sodium sur la raie jaune. La polarisabilité d’un atome isolé est très grande, et on atteindrait facilement 
le seuil fatidique. En fait, ce type de raisonnement pêche en utilisant la polarisabilité d’un atome isolé. 
Quand la densité est grande, les atomes voisins se perturbent, par des interactions de van der Waals, 
par exemple, et leur polarisabilité diminue (une façon de le voir est que la largeur des raies atomiques 
augmente et que donc leur facteur de qualité diminue). En fait, la polarisabilité s’effondre très vite 
avec la densité et les facteurs correctifs ne dépassent jamais quelques dizaines de pour cent. 


2.4.2 Cas magnétique 


Il nous reste à traiter le cas magnétique. Le calcul est essentiellement le même, fondé sur la même 
comptabilité statistique des champs proches et lointains. On trouvera sans peine: 


By =B+ | (Palp) - PDB) Èp , (2.54) 


où les densités de probabilité ont les mêmes significations et où 8 est le champ magnétique créé à 
l’origine par le dipôle moyen situé en p. On montrerait, comme précédemment que l'intégrale sur Pe est 
identiquement nulle (les géométries des cartes de champ du dipôle magnétique et du dipôle électrique 
sont identiques). Il ne nous reste donc qu’à évaluer le champ magnétique créé en son centre par une 
sphère uniformément magnétisée. Le calcul étant moins standard que pour le cas électrique, nous 
allons le traiter explicitement. Les équations de Maxwell macroscopiques dans la sphère s'écrivent: 


V-B = 0 (2.55) 
VxH = 0, (2.56) 
puisqu'il n’y a pas de courants libres. Il existe donc, dans ce cas, un potentiel magnétique scalaire ® 


d’où dérive l’induction magnétique: 
H=-V®. (2.57) 


Notons que ce potentiel scalaire magnétique n’existe que quand les courants macroscopiques sont nuls. 
Il ne permet de traiter que les matériaux aimantés, mais il est fort utile dans ce cas. Nous retrouvons 
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d’ailleurs ici la théorie des masses magnétiques, qui fut très utilisée au XIX siècle pour traiter des 
aimants. La nullité de la divergence de B implique que: 


V-H+M=0, (2.58) 


où M est l’aimantation. Le potentiel scalaire magnétique obéit donc à une équation de Poisson qui 
ie 
s'écrit: 


Aÿ=V.M (2.59) 


Dans le cas de la sphère polarisée électriquement, la densité de charges liées est p = —V -P et le 
potentiel scalaire obéit à l’équation de Poisson: 


1 
AV==V.P. (2.60) 
€0 


La similitude (à des facteurs dimensionnels près) des deux équations prouve que l'induction magnétique 
H a essentiellement la même forme que le champ électrique de la sphère polarisée: 


H=-M/3, (2.61) 


d’où on déduit immédiatement: 


B= TE (2.62) 


En injectant ce résultat dans le calcul du champ vu par la molécule, nous avons: 
2 
By =B- oz M ; (2.63) 


Le dipôle moyen induit est: 


1 
mm = —a" Bm , (2.64) 
Ho 


et l’aimantation moyenne est simplement: 
M = Nmn. (2.65) 


En rapprochant l’ensemble de ces résultats, on détermine la susceptibilité magnétique: 


B Na” 
— 1+2Na™/3 ` 


m 


X (2.66) 


Pour la limite des faibles densités, on retrouve bien une susceptibilité qui est le produit de la 
polarisabilité par la densité numérique. Pour des densités plus fortes, le facteur correctif joue un rôle. 
Pour les substances paramagnétiques, la polarisabilité est positive. Le facteur correctif tend donc 
à réduire la susceptibilité. En fait, le champ des plus proches voisins est un champ démagnétisant, 
qui tend à s’opposer au champ macroscopique. La susceptibilité ne pose donc aucun problème de 
divergence. Pour des substances diamagnétiques, la polarisabilité est négative, et la susceptibilité se 
trouve renforcée. Toutefois, ces polarisabilités diamagnétiques sont en général très faibles et aucun 
effet de divergence n’est à craindre. Armés d’expressions réalistes pour les susceptibilités, nous pouvons 
maintenant les utiliser dans les équations de Maxwell macroscopiques. 
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2.5 Perméabilité et permittivité relatives 


2.5.1 Définitions et équations de Maxwell 


Nous avons donc: 
Do = eo(1 + x°)E,, . (2.67) 


Nous ne manipulons forcément que des composantes monochromatiques, puisque les susceptibilités 
dépendent de la fréquence. Il est naturel de poser: 


Er(r,w) =1+X%. (2.68) 
Nous nommerons cette quantité “permittivité diélectrique relative”. On a donc 
D,, = oc Ey (2.69) 
Notons que er s'exprime facilement en fonction de la polarisabilité: 


__1+2Na°/3 


HA 2.70 
TT TI Na/3 (2270) 


Comme la polarisabilité électrique, induite ou d'orientation, est toujours positive à basse fréquence, la 
permittivité diélectrique relative est toujours supérieure à 1. En revanche, au dessus de la fréquence 
de résonance des système atomiques, la polarisabilité peut devenir négative et €. plus petit que 1. 
Notons que la relation précédente s’inverse facilement en: 

Er — 1 


No = 3 : 2.71 
M ro (2.71) 


Cette relation, en électrostatique, est connue sous le nom de relation de Clausius-Mosotti. 
Nous pouvons utiliser le même genre d’arguments pour les phénomènes magnétiques. On peut 
écrire: 
Bo = mour(r,w)H, , (2:72) 


avec 
1 


= —— 2, 
E (2.73) 


Hr 


que nous appellerons “perméabilité magnétique relative”. Là encore, il ne s’agit que de relations 
entre composantes de Fourier. up est donc supérieur à un pour les matériaux paramagnétiques, de 
polarisabilité ou de susceptibilité positive, inférieur à un pour les matériaux diamagnétiques. On peut 
aussi écrire ur en fonction de la polarisabilité sous la forme: 


__1+2Na"/3 


PO na 2.74 
1 — Nam/3 7 


équation strictement identique à celle que nous avions écrite pour €. La relation inverse est aussi 
identique à la relation de Clausius-Mosotti électrique: 


Ur — 1 


Na” =3 ; 
Ur +2 


(2.75) 

Nous n’avons ici que des relations entre composantes de Fourier. Dans le cas général, les équations 
de Maxwell ne prennent une forme simple qu'après une transformée de Fourier temporelle. D et H 
s'exprimant en fonction des champs électriques et magnétiques, on obtient un ensemble de quatre 
équations portant sur deux champs de vecteurs seulement qu’il est, au moins en principe, possible de 
résoudre. Dans le cas particulier important où les susceptibilités sont pratiquement indépendantes de 
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la fréquence dans tout le domaine de fréquence couvert par la physique du problème, il est possible 
de regrouper les composantes de Fourier et d’écrire les équations de Maxwell comme: 


oB 
VXE = -5 (2.76) 
V.B = 0 (2.77) 
V-(&E) = p/o (2.78) 
Vx (B/m) = po [j+ eo 8E] (2.79) 


Nous avons bien pris garde de ne pas sortir les permittivités et perméabilités relatives des dérivations. 
Elles peuvent en effet a priori dépendre de l’espace, si le matériau n’est pas homogène, et du temps. 
Ce n’est que dans un matériau homogène et invariable qu’on retrouve une forme identique à celle des 
équations de Maxwell dans le vide, avec les simples substitutions co — €o€r et uo — HoHr. 


2.5.2 Considérations énergétiques 


Nous pouvons maintenant reprendre l’équation bilan énergétique. Nous nous restreindrons à un milieu 

dont les susceptibilités sont indépendantes du temps. Le terme de variation d’énergie électromagnétique 

peut s’écrire: 

ðD 0B ðu 
H ==, 


pe Le =, ee 2.80 
Œœ à & (a20) 
à condition de poser: 
2 
E0Er 2 
u = ——E M 2.81 
2 2Holr ( 
De son côté, le vecteur de Poynting s'écrit: 
E x B 
Dee, (2.82) 
HOT 


on retrouve donc strictement les bilans énergétiques de l’espace libre, avec les substitutions €o — €o€r 
et Ho — Hobtr. 

Nous avions vu dans le chapitre précédent que la puissance cédée par les champs à la matière pour 
faire varier sa polarisation s’exprimait comme: 


oP 


(2.83) 
Bien sûr, il y a aussi une puissance fournie pour modifier les polarisations magnétiques. Toutefois, 
la plupart des matériaux avec des propriétés magnétiques marquées sont opaques et ne présentent 
guère d’intérêt du point de vue de la propagation. Nous ne considérerons donc plus qu’un matériau 
dit diélectrique, équivalent au vide du point de vue magnétique (ur = 1) et ne présentant que des 
propriétés électriques. Si nous ne considérons qu’un champ monochromatique, avec des amplitudes 
Eo et Po pour le champ électrique et la polarisation, la valeur moyenne temporelle de cette puissance 
s'écrira: i 

zRe (—iwPo) - Eò). (2.84) 
En utilisant la susceptibilité x = x’ + ix” (on omettra la mention ê. Nous ne discutons que du cas 


électrique et il n’y a pas de risque de confusion avec une susceptibilité magnétique), on met cette 
puissance sous la forme: 


1 
5lEol ewy" - (2.85) 
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La puissance moyenne cédée par le champ à la matière est donc proportionnelle à la partie imagi- 
naire de la susceptibilité. Cette puissance reflète bien sûr l’absorption d’une onde électromagnétique 
par la matière. Si x” est positif, le transfert d'énergie se produit du champ vers la matière: cette 
puissance reflète bien sûr l’absorption d’une onde électromagnétique par la matière. Si x”, en re- 
vanche, est négatif, la matière fournit de l’énergie à l’onde. On peut alors s’attendre à ce qu’une onde 
électromagnétique soit amplifiée par un tel milieu. On se convaincra aisément que la susceptibilité 
résultant du modèle de Thomson de l’électron élastiquement lié a une partie imaginaire positive. Ce 
modèle correspond toujours à une absorption, l’énergie fournie par l’onde servant à compenser l’énergie 
dissipée par le frottement phénoménologique introduit dans l’équation du mouvement de l’électron. 

Le modèle quantique, pour sa part, permet une situation un peu plus riche. Si nous prenons le 
modèle quantique tel que nous l’avons formulé dans la partie précédente, la polarisabilité est stricte- 
ment réelle, et aucune absorption ne peut se produire. Nous avons en effet un modèle qui néglige 
complètement la dissipation atomique. Nous pouvons facilement rendre le modèle plus réaliste en 
rajoutant phénoménologiquement un terme d’amortissement dans l’expression de la polarisabilité ou 
de la susceptibilité. Pour un milieu suffisamment dilué pour que les facteurs correctifs des équations 
de Clausius-Mosotti soient négligeables, la susceptibilité s’écrira donc: 


2 
EN D — — 9 Jia | (2.86) 
2m€0 Dig TY — ja 


X 


où la somme est à étendre à tous les niveaux j autres que le fondamental, fjg étant la force d’oscillateur 
de la transition de g vers j et finalement 7y;, un facteur d'amortissement phénoménologique pour 
cette transition (on trouve ce facteur de façon exacte en quantifiant le champ et en tenant compte 
correctement de l'émission spontanée). On peut donc extraire facilement la partie imaginaire de la 
susceptibilité. Au voisinage immédiat de la résonance, le domaine dans lequel il peut se passer des 
choses intéressantes, on a: 

Pa A At a (2.87) 

2mMeEo ui A(wig — w)? + I 

On trouve donc qu’au voisinage d’une résonance, la partie imaginaire de x et donc l’échange d’énergie 
avec le champ présente un comportement Lorentzien. De plus, toutes les quantités étant positives à 
part la force d’oscillateur, x” a le signe de fjg. Celui-ci est le signe de la fréquence de Bohr w;, de la 
transition résonante. Rappelons que, dans le calcul quantique de la susceptibilité, nous avons supposé 
que pratiquement toute la population atomique est dans le niveau g. Si donc le niveau j a une énergie 
supérieure au niveau g, x” est positif et le milieu absorbe l'énergie du champ comme dans le modèle 
classique de Thomson. En revanche, si le niveau j se trouve énergétiquement au dessous du niveau 
le plus peuplé, g, la partie imaginaire de la susceptibilité devient négative. Dans ce cas, le milieu 
atomique fournit de l’énergie au champ et l’amplifie. 

Nous trouvons ici en fait une version semi-classique de l’émission stimulée: sur une transition 
inversée, où la population du niveau supérieur est plus grande que la population du niveau du bas, 
les photons émis par les atomes sous l'influence d’une onde incidente, s’ajoutent de façon cohérente 
à l’onde incidente et l’amplifient. Un tel milieu amplificateur couplé à un résonateur peut conduire 
à une oscillation permanente. En un mot, nous venons d’inventer le laser! On peut comprendre 
assez bien le fonctionnement d’un laser en remplissant un interféromètre de Fabry Perot avec un 
milieu amplificateur. Dans un Fabry Perot ordinaire, la finesse finie est due aux pertes subies par le 
faisceau lumineux sur un aller et retour dans la cavité. Si le gain du milieu amplificateur est juste 
égal aux pertes, la finesse diverge et il peut exister un champ permanent dans la cavité. Si le gain 
est supérieur aux pertes, l'intensité croit exponentiellement. En fait, elle ne croît ainsi que sur une 
gamme limitée. La saturation de la transition atomique, que nous avions brièvement évoquée dans la 
partie précédente, fait que le gain est en fait une fonction décroissante de l’intensité. Il s'établit alors 
un régime stationnaire avec une intensité importante dans la cavité. 
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Partie réelle 
Partie imaginaire 


0.4 — 


Fréquence 


Figure 2.2: Partie réelle et imaginaire de la susceptibilité au voisinage de la résonance. On a représenté en traits pleins 
la courbe de dispersion Re (1+ x) et en pointillés la courbe d'absorption Im x. La fréquence est en unités de la fréquence 


de résonance. Le facteur de qualité de la résonance est de 30, très inférieur à ce qu’on a pour une résonance atomique. 


Nous montrerons dans un paragraphe suivant que la partie réelle de la susceptibilité est, pour sa 
part, liée à l’indice de réfraction ordinaire. La susceptibilité contient donc tout à la fois les phénomènes 
de réfraction ou de dispersion, si l’indice n’est pas indépendant de la fréquence, et les phénomènes 
d’absorption. On vérifiera sans peine que la partie réelle de la susceptibilité présente, voisinage d’une 
résonance atomique, une forme voisine de la dérivée d’une Lorentzienne. Elle est nulle strictement à 
résonance, maximale ou minimale environ à une largeur de la résonance stricte. Une telle courbe est 
appelée courbe de dispersion. Elle décrit de façon assez réaliste la variation de l’indice de réfraction 
ordinaire au voisinage de la résonance. La variation de l'indice avec la longueur d’onde étant liée 
aux phénomènes de dispersion, le nom a été conservé pour cette forme de courbes. Des courbes 
d’absorption et de dispersion typiques sont représentées sur la figure 2.2 


2.6 Relations de Kramers-Krônig 


On pourrait penser à priori que dispersion et absorption sont deux phénomènes indépendants. On 
pourrait alors imaginer par exemple des milieux qui, dans une très large gamme de fréquence, auraient 
une très forte absorption en dépit d’un indice voisin de un. Ce seraient de parfaits pièges à lumière. 
On pourrait aussi imaginer des verres qui feraient la fortune des lunetiers en étant de très grand indice 
et néanmoins totalement transparents, là aussi dans une large gamme de fréquences. En fait, nous 
allons montrer que la simple causalité (la polarisation ne peut répondre au champ avant que celui-ci 
n'ait été appliqué) impose des relations très fortes entre les parties réelles et imaginaires de l'indice. 
En fait, quand la première est connue sur tout le spectre, la seconde peut aisément être déterminée 
par une simple transformation mathématique. 

Le point de départ est le lien entre polarisation et champ par la fonction de Green, transformée 
de Fourier de la susceptibilité: 


P(t 


= f co E(t-—r). (2.88) 


toutes ces quantités s’entendant à un point r donné. En fait, nous ferons le calcul pour la susceptibilité 
électrique, mais il s’appliquerait aussi bien à toutes nos susceptibilités, ou à toute forme de réponse 
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linéaire. Les relations que nous allons établir sont donc très générales, dépassant largement le cadre 
de l’électromagnétisme. Nous considérons ici la susceptibilité comme scalaire. Des aménagements de 
détail du calcul permettraient de traiter le cas tensoriel. Nous savons que la fonction de Green est la 
transformée de Fourier de la susceptibilité: 


G(T) = = vues 7 dw . (2.89) 


Cette intégrale peut bien sûr être transformée en une intégrale sur le plan complexe. Le chemin 
d'intégration est constitué de l’axe réel, parcouru dans le sens positif et fermé par un demi-cercle “à 
linfini” (on pourra se reporter à la figure du chapitre sur les potentiels retardés, troisième partie). 
Si r < 0, le demi-cercle doit se trouver dans le demi-plan supérieur. C’est à cette condition que 
exponentielle e— “7 annule l'intégrale sur ce demi-cercle. En revanche, pour T > 0 on doit boucler 
le contour d'intégration dans le demi-plan inférieur. La causalité impose bien sûr que G(T) s’annule 
pour T < 0. L'intégrale sur le contour dans le demi-plan supérieur est donc identiquement nulle. Cela 
impose, l’exponentielle étant régulière sur tout le plan complexe, que la susceptibilité x ne présente 
de pôles que dans le demi-plan inférieur. On pourra vérifier aisément que les susceptibilités déduites 
du modèle de Thomson ou du modèle quantique présentent cette propriété. Notons que des pôles 
situés strictement sur l’axe réel correspondraient à des résonances sans amortissement (voir le calcul 
quantique de la quatrième partie), ce qui n’est guère physique. 
Considérons maintenant la fonction: 


x(w) 
2in(w — zo)’ (2:90) 
où zo a une partie imaginaire positive. Cette fonction admet donc un pôle unique en zọ dans le demi- 
plan supérieur, dont le résidu est trivialement Y(20)/2ir. L'intégrale sur le contour composé de l’axe 
réel et du demi-cercle supérieur est alors égale à ce résidu (multiplié par 2ir). Pour tout système 
physique, la susceptibilité doit tendre rapidement vers 0 quand le module de la fréquence tend vers 
linfini. L'intégrale sur le “demi-cercle à l'infini” est donc négligeable, et l’intégrale sur le contour se 
ramène à celle le long de l’axe réel. On a donc finalement: 


x(20) S AU, (2.91) 


-œ 2im(w — zo) 
Posons maintenant: 
zo = wo + ie, (2.92) 


avec w réel et prenons la limite de l'expression précédente pour € — 0. Le point z0 tend alors vers le 
point wọ de l’axe réel. Le premier membre, puisque x est régulière dans tout le demi-plan supérieur, 
tend vers x(wo). On a donc: 


Ie x(w) 
= — l1 ——. 2.93 
X (wo) 2i 250 w — wọ — 1€ ( ) 
On montre facilement, en théorie des distributions, que 3: 
f 1 , 
lim | ——— = PP(1/(w — wo)) + irô(w — wo) . (2.94) 


e—0 w — wo — te 


3On peut comprendre qualitativement cette limite en observant que la fonction à intégrer est, pour sa partie réelle, une 
courbe de dispersion (dérivée de Lorentzienne) et, pour sa partie imaginaire, une simple Lorentzienne. Ces deux courbes 
sont de largeur €. Quand e — 0, la seconde tend trivialement vers une fonction de Dirac. La première estime la différence 
entre deux valeurs infiniment proches de la fonction sur laquelle porte la distribution, ce qui est bien, fondamentalement, 
l’action de la distribution partie principale. 
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La distribution “partie principale en wọ”, PP est, rappelons le, définie par: 


Ge an =e Tas n L] (2.95) 


On a donc finalement, en constatant que l’action de ô sur x est triviale, 


x(w) = +PP f H | (2.96) 


ia 


En isolant, dans cette expression, les parties réelles et imaginaires, on obtient enfin les relations de 
Kramers-Krônig proprement dites: 


Ge) Lpp Î Mt (2.97) 


MG = -pp | 1, (2.98) 


Les parties réelle et imaginaire de la susceptibilité sont donc reliées par une transformation mathé- 
matique très simple. On peut comprendre ainsi pourquoi, si la partie imaginaire au voisinage d’une 
résonance, a un comportement Lorentzien, la partie réelle a la forme d’une courbe de dispersion. La 
partie principale calcule en effet une “sorte de dérivée” de la fonction. Elle est nulle si la fonction 
est paire par rapport au point wọ, non nulle quand la fonction est impaire. La partie réelle est 
donc nulle au maximum de la partie imaginaire, au sommet de la résonance. Elle est en revanche 
importante quand la partie imaginaire varie rapidement, dans les ailes de la résonance. On voit donc 
bien que ces parties réelle et imaginaire sont fortement liées et que lune ne saurait être grande sans 
que l’autre ne soit également importante, dans un domaine de fréquence voisin. Ces relations ont de 
nombreuses conséquences en théorie de la réponse linéaire. Elles peuvent, en pratique, être utilisées 
pour déterminer la réfraction si seule l'absorption est expérimentalement disponible (c’est par exemple 
le cas pour les milieux fortement absorbants), ou l'inverse. 


Chapitre 3 


Propagation dans les milieux linéaires 


Nous allons maintenant appliquer les équations de Maxwell macroscopiques et les susceptibilités au 
problème de la propagation de champs monochromatiques dans des milieux matériels. Nous pourrons 
préciser le contenu physique de la dispersion et de l’absorption. Nous nous préoccuperons en fait 
essentiellement de deux types de milieux: les diélectriques transparents et les milieux conducteurs, 
regroupant métaux et plasmas. Dans un deuxième temps, nous établirons les lois de continuité des 
champs au voisinage d’une interface entre deux matériaux différents. Nous appliquerons ces lois au 
passage d’une onde plane entre deux matériaux diélectriques. Nous en déduirons les lois de Descartes 
de l’optique géométrique, mais aussi les coefficients de Fresnel donnant les amplitudes relatives des 
ondes transmises et réfléchies. 


3.1 Equations de propagation 


Nous considérerons donc la propagation d’un champ harmonique, de fréquence w dans un milieu 
matériel. Ce milieu est caractérisé par les permittivité diélectrique er, perméabilité magnétique ur 
relatives et par la conductivité o. Nous supposerons le milieu homogène et ces quantités indépendantes 
de la position. Nous supposerons que le courant macroscopique ne résulte que de la conductivité du 
matériau et du champ électrique (en d’autres termes, nous supposons que les générateurs sont en 
dehors de notre milieu). Les équations de Maxwell en régime harmonique s’écrivent alors: 


VXxE = ivB (3.1) 
V-B = 0 (3.2) 
VE 2e: (3.3) 

€0€r 

VXxB = hour |o — ieperw]E. (3.4) 


A ces équations, nous pouvons adjoindre l’équation de conservation de la charge (qui se déduit des 
équations de Maxwell), qui s'écrit, avec j = cE: 


oV- E=iwp. (3.5) 
En y injectant l'équation de Gauss, on trouve: 
iwp = o p/€o€r , (3.6) 
qui n’admet comme solution que p = 0 à moins que 
O = iWEpEr . (3.7) 
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Ce cas étant a priori plutôt rare, nous l’exclurons pour le moment et nous pourrons donc supposer 
que p est toujours identiquement nulle dans les milieux matériels. 

Munis de cette simplification considérable, nous pouvons facilement écrire une équation de prop- 
agation pour le champ électrique seul ou le champ magnétique seul. En fait, comme dans l’espace 
libre, les équations de propagation de tous les champs et de tous les potentiels sont identiques. Cette 
équation peut se mettre sous la forme d’une équation de Helmholtz: 


Q2 
AE + —E =0 3.8 
+E-0, (3.8) 
où la fréquence (complexe) Q est définie par: 


Q? = (w° uolreoer + Lolriwo)c? . (3.9) 


Dans le vide, on retrouve bien sûr ( = w. Toute la physique de la propagation est contenue dans cette 
fréquence. La solution en termes d’ondes planes avec une direction de propagation selon Oz: 


Poe (3.10) 


devra vérifier la relation de dispersion 
k =e. (3.11) 


3.2 Milieux diélectriques 


Nous considérerons d’abord le plus simple des matériaux, un matériau diélectrique (€, # 1), dépourvu 
de toutes propriétés magnétiques (uy = 1) et strictement isolant (o = 0). La relation de dispersion 


s'écrit alors: 
w 


k= Ve. (3.12) 


Nous poserons: 
n= €r, (3.13) 


et écrirons donc la relation de dispersion sous la forme: 
w 
k=n—=nko, (3.14) 
c 


où ko = w/c serait le module du vecteur d’onde pour une propagation dans le vide à cette fréquence. 
Nous appellerons n l'indice de réfraction de notre matériau diélectrique. Il donne en effet le rapport 
entre la longueur d’onde dans le vide et la longueur d’onde dans le milieu. 
Comme n est en général une quantité complexe, ainsi que €, ou x*, lindice de réfraction est aussi 
une quantité complexe: 
n=n+in". (3.15) 


On peut montrer simplement que: 


1 
n' = T e, + yel? + e? (3.16) 
et que 
I 
1 
Ie ee (3.17) 


Notons que, pour respecter le sens choisi pour la propagation de londe, le signe de n’ doit être positif. 
Il n’y a donc pas d’ambiguïté sur le signe de n”. Comme e” = xy", la partie imaginaire de l'indice est 
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liée directement au coefficient d'absorption du milieu. On peut en effet remarquer que l’expression de 
londe plane de vecteur d’onde complexe peut se réécrire: 


Epe "#02 eilkon'z—wt) - (3.18) 


Il s’agit d’une onde dont l’amplitude décroît exponentiellement lors de la propagation dans le milieu. 
La partie réelle, pour sa part, correspond à une augmentation du module du vecteur d’onde, donc à 
une réduction de la longueur d’onde (si la partie réelle de l’indice est plus grande que un, ce qui est 
fréquemment le cas). Il s’agit donc de l'indice de réfraction tel que le conçoit l’optique géométrique. 
La vitesse de phase de cette onde évanescente (la vitesse à laquelle se propagent les plans d’égale phase 
ou plans d’onde) est manifestement donnée par: 


= (3.19) 
Elle est donc plus petite que la vitesse de la lumière dans un facteur égal à la partie réelle de l’indice 
de réfraction. La vitesse de groupe, pour sa part, dépend en général de la dépendance de n avec w. 
On établira sans peine que: 
= chn 
m 1+ wdn ' 


n dw 


Vg (3.20) 
Au voisinage d’une résonance atomique, l'indice de réfraction varie rapidement avec w et peut être une 
fonction décroissante de w. On peut avoir, dans cette région de “dispersion anormale” une vitesse de 
groupe très petite ou très grande devant c, voire même une vitesse de groupe négative. C’est bien sûr 
la notion même de vitesse de groupe qui perd son sens dans ce cas. Elle ne s’applique a priori qu’à un 
paquet d’onde suffisamment large en fréquence pour être bien localisé dans l’espace, mais très étroit 
devant l’échelle de variation de la vitesse de propagation pour se propager encore sans déformation 
notable. Au voisinage d’une résonance très étroite, ces conditions ne sont pas remplies et le paquet 
se déforme considérablement, laissant une très grande marge à l’interprétation dans la définition de 
sa vitesse de propagation. Un certain nombre d'annonces spectaculaires récentes de “propagation 
supraluminique” reposent sur cette ambiguïté. En fait, quelle que soit la forme du paquet et de la 
dispersion, on montre qu'aucun signal ne peut se propager plus vite que c. 

Nous avons ici les expressions exactes des parties réelles et imaginaires de l’indice de réfraction. 
Elles se simplifient beaucoup si le milieu et peu dense et/ou la susceptibilité, réelle comme imaginaire, 
est très inférieure à un. On peut en effet dans ce cas développer les expressions précédentes et obtenir: 


n = 1+%/2=1+No//2 (3.21) 
n” = x"/2 = Na"/2. (3.22 


Ces expressions de l’indice en fonction de la polarisabilité sont très utiles en pratique. 

L'équation de propagation ne précise pas les amplitudes Eo et Bo des champs électriques et 
magnétiques. Leur divergence étant nulle, ils sont tous deux perpendiculaires au vecteur d’onde 
k. La première équation de Maxwell s’écrit, pour une onde plane de vecteur d’onde (complexe) k: 


ik x Eo = iwBo : (3.23) 


On en déduit que la structure de l’onde plane est conservée, Eo, Bo et k formant encore un trièdre 
direct. En revanche, pour un indice complexe, les champs ne sont pas nécessairement en phase, et le 
rapport de leurs modules est Bo/Eo = [n|/c. 

Dans le cas d’un milieu absorbant, l'énergie de londe passe à la matière sur une distance de l’ordre 
de 1/n”ko. Des notions comme le vecteur de Poynting ont donc un intérêt physique limité. Pour établir 
des bilans énergétiques, nous allons donc considérer le cas d’un milieu diélectrique complètement trans- 
parent (n” = 0). Notons que les relations de Kramers Kronig n’interdisent nullement à l'absorption 
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d’être nulle pour une fréquence avec une partie réelle d’indice non nulle à la même fréquence. Les 
champs électriques et magnétiques sont alors en phase, et on a: Bo = nEo/c. Le vecteur de Poynt- 
ing, sans surprises, pointe donc dans la direction du vecteur d’onde, et sa valeur moyenne temporelle 
s'écrit: rs 

= à 5 

T = E. (3.24) 


La densité d’énergie électromagnétique s’écrit, en valeur instantanée: 


E? 1 
2 2 
u = En — + — B4. 3.25 
on — + D (3.25) 
En utilisant le rapport entre les amplitudes de E et B, on montre que, comme pour l’onde plane 
dans le vide, les densités d'énergies électriques et magnétiques sont égales à chaque instant. La valeur 
moyenne temporelle de la densité d'énergie s’écrit finalement: 


U = eon — . (3.26) 


En faisant maintenant le rapport de la valeur moyenne du vecteur de Poynting avec la valeur moyenne 
de la densité d’énergie, on doit obtenir, comme pour l’onde plane dans le vide, la vitesse de propagation 
de l’énergie, qui doit coïncider avec la vitesse de groupel: 


(3.27) 


La vitesse de groupe, ou de propagation de l’énergie, est donc égale à la vitesse de phase, et plus 
petite (si n > 1) que la vitesse de la lumière. Il s’agit bien sûr d’un résultat très classique d’optique 
géométrique. 


3.3 Milieux conducteurs 


Nous allons maintenant considérer la propagation dans un milieu conducteur, pourvu de propriétés 
diélectriques, mais dépourvu de propriétés magnétiques. Nous aurons donc © Æ 0, €r Æ 1, mais up = 1. 
Nous supposerons de plus que la permittivité diélectrique relative est pratiquement indépendante de 
la fréquence. On pourra ainsi traiter de la propagation dans les métaux. Les électrons libres sont alors 
responsables de la conductivité, en général élevée, alors que les ions métalliques sont responsables des 
propriétés diélectriques. Les électrons libres, dans un tel matériau, sont mis en mouvement globalement 
par tout champ appliqué et contribuent donc au courant macroscopique, libre, alors que les autres 
électrons et ions, fixes, ne contribuent qu’aux charges liées. Nous pourrons aussi traiter des plasmas, 
où électrons et ions libres contribuent tous deux aux courants libres. Cependant, la masse des ions est 
toujours très grande par rapport à celle des électrons. Pour des champs de haute fréquence, les ions ne 
suivent pratiquement pas le champ appliqué et on peut considérer que seuls les électrons participent à 
la conduction et aux courants libres, les ions restant spectateurs et ne contribuant qu'aux propriétés 
diélectriques par leur polarisabilité. En d’autres termes, au prix de cette approximation, on voit que 
les propagations dans un plasma ou dans un métal sont essentiellement identiques. 


3.3.1 Modèle de conductivité 


Avant de décrire en détails la propagation, nous allons donner un modèle simple mais réaliste de 
conductivité, qui nous permettra de préciser sa dépendance en fréquence. Ce modèle est très universel 
INous faisons ici en fait, de façon implicite, l'hypothèse que le spectre en fréquence du paquet d’ondes que l’on propage 


est très étroit par rapport au domaine de variation de l’indice avec la fréquence. Si l’indice ne dépend pas de la fréquence, 
va = dw/dk est précisément égal à c/n. 
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et s'applique aussi bien aux électrolytes qu'aux plasmas ou aux métaux. Nous ne discuterons toutefois 
les ordres de grandeur que pour un métal bon conducteur, comme le cuivre. Nous ne considérerons 
aussi qu’un seul type de porteurs de charges libres que nous assimilerons à des électrons. C’est le cas 
pour les métaux et une bonne approximation pour les plasmas. 

Sous l’action du champ électrique E, les porteurs libres se mettent en mouvement d'ensemble. En 
général, ce mouvement d'ensemble se superpose aux mouvements aléatoires d’origine thermique (pour 
les plasmas) ou quantiques (principe d’exclusion de Fermi pour les métaux). Bien que ces vitesses 
aléatoires soient beaucoup plus grandes que les vitesses d’ensemble?, nous allons écrire uniquement 
une équation sur la vitesse d'ensemble v: 


my +myv=4E, (3.28) 
où m et q sont la masse et la charge des porteurs, et où y est un facteur phénoménologique de friction, 


décrivant l’inévitable amortissement de la vitesse d'ensemble sous l'influence des collisions avec le 
réseau. La solution évidente de cette équation en régime harmonique est: 


E 
Ve. (3.29) 
m(y — iw) 
Le courant macroscopique étant donné par: 
j= Nav, (3.30) 


où N est la densité numérique de porteurs au point considéré, on peut finalement écrire la conductivité 
comme: 
Ng WP E0€r 
= = LT, (3.31) 
m(y— iw)  y—iw 
Nous avons introduit la “fréquence de plasma” du conducteur (dont la signification physique apparaîtra 
plus clairement dans les prochains chapitres): 


2 
w2 = As, (3.32) 
MEQEr 


Nous trouvons donc en général une conductivité complexe. Le mouvement des porteurs de charges 
a en effet un temps de réponse au champ appliqué, de l’ordre de y! Le courant ne suivant pas 
instantanément le champ, il est déphasé par rapport à celui-ci. Ce n’est que pour des fréquences très 
petites devant y qu’on retrouve une conductivité réelle. 

Pour fixer un peu les ordres de grandeur, considérons un bon métal (cuivre) à très basse fréquence. 
La conductivité est de l’ordre de 107 Q-lm!. La densité numérique d’électrons s'obtient facilement en 
calculant le nombre d’atomes par unité de volume (chacun participant par un électron à la conduction). 
On a environ N = 10% m *. En assimilant la permittivité diélectrique relative à 1, on trouve ainsi 
l'ordre de grandeur du taux de relaxation y œ~ 10!3s71. Cet ordre de grandeur est relativement 
réaliste. Pour une propagation d'électrons dans un réseau métallique, il correspond assez bien au 
temps moyen entre deux collisions avec les défauts du réseau ( joints de grains, dislocations....). Avec 
ces mêmes ordres de grandeur, la fréquence plasma et de 1016 Hz. Elle est très élevé par rapport au 
taux de relaxation. Les longueurs d’onde correspondant au taux de relaxation sont dans le domaine 
de l’infrarouge lointain alors que celles correspondant à la fréquence de plasma sont dans l’ultraviolet 
proche. 


?L’ordre de grandeur de la vitesse d'ensemble dans les métaux est le millimètre par seconde, alors que les vitesses de 
Fermi sont de l’ordre du centième de celle de la lumière. 
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Avec ce modèle simple de la conductivité, on peut écrire le vecteur d’onde complexe d’une onde 
plane se propageant dans le milieu en fonction de w (relation de dispersion). On obtiendra: 


k? = kler 


2 
1+ RS (3.33) 


En général, k présente une partie imaginaire et l’onde est absorbée dans le milieu. Les électrons, 
soumis à une force de friction, dissipent en effet de l'énergie. Pour préciser un peu le comportement 
de k, on peut séparer trois domaines de fréquence selon les valeurs relatives de w, wp et 7. 


3.3.2 Propagation très basse fréquence 


Nous considèrerons ici une fréquence très basse par rapport au taux de relaxation: 
wW EYE Up- (3.34) 


La conductivité est alors pratiquement réelle: 
gann (3.35) 


(on retrouve le modèle de conductivité de Drude dans ce régime basse fréquence) et on peut écrire: 


2 
(09) 
1 +i 


k? = kôe, 
Jw 


(3.36) 


Dans l'expression entre crochets, le second terme est très grand devant 1, qui peut être négligé. 
L’extraction de la racine ne pose aucun problème et on trouve: 


k= +(1 + i)/ô ; (3.37) 
avec 
2 2€ 
= pp 2, (3.38) 
Er ow 
où on a noté que w? = oy/epe. Les parties réelles et imaginaires du vecteur d’onde sont donc 


égales. L’onde s’amortit sur une distance ô, égale à la longueur d’onde dans le milieu. Une onde 
électromagnétique ne peut pénétrer dans un milieu conducteur. C’est l’effet de peau, bien connu des 
techniciens des hautes fréquences. 

Précisons l’ordre de grandeur de la profondeur de peau, 6, pour un bon métal comme le cuivre. 
Elle est proportionnelle à la racine carrée de la longueur ďd’onde dans le vide à la même fréquence. 
Pour une très basse fréquence, w = 27 x 50 Hz, on trouve ô ~ 3 cm. La profondeur de peau à une 
fréquence aussi basse est en général très grande par rapport à l'épaisseur des circuits ou des fils. On 
néglige cet effet le plus souvent en électrotechnique sauf sur les lignes à très haute puissance, de grand 
diamètre en général. Cet ordre de grandeur montre aussi qu’il est très difficile d’écranter efficacement 
un circuit électronique des très basses fréquences. Pour une fréquence beaucoup plus élevée, 27 x 50 
Mrd/s, par exemple, la profondeur de peau n’est plus que de 30 um. A haute fréquence, le champ ne 
pénètre pratiquement pas dans le conducteur. Quand on veut transmettre une puissance importante, 
il est donc préférable de donner au conducteur la forme d’un ruban très aplati, ayant une épaisseur de 
l’ordre de la profondeur de peau. Cet ordre de grandeur prouve aussi que l’on peut très efficacement 
écranter un circuit électronique du bruit haute fréquence en le plaçant dans un blindage métallique 
d’épaisseur modérée. 
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3.3.3 Propagation haute fréquence 


Considérons maintenant le cas où la fréquence est supérieure à la fréquence de plasma et donc très 
grande par rapport au taux d'amortissement: 


w> >y. (3.39) 


La relation de dispersion s’écrit alors, en négligeant 7: 
2 
w 
k? = kler f — a i (3.40) 


La quantité dans le crochet étant réelle positive, la propagation s'effectue avec un vecteur d’onde réel, 
sans amortissement (nous avons en effet éliminé le taux de relaxation). D’indice de réfraction est: 


w2 
= ( -) (3.41) 


Dans le cas où €, = 1, cet indice est plus petit que l’unité. Cela reflète le fait que la vitesse de phase 


de l’onde: 
w c 


c 1 
oia C E 
dE VEr ,/1 — w2/w? 


est plus grande que la vitesse de la lumière. Cette vitesse de phase ne correspond pas à la vitesse de 
propagation de l’énergie, donnée par la vitesse de groupe. Rien ne lui impose donc d’être plus petite 
que c. La vitesse de groupe est donnée par: 


dw c 
E [1 — 2/2 
u= k = SU PE (3.43) 


Elle est donc plus petite que c/,/€, comme il se doit. On remarquera d’ailleurs que: 


(3.42) 


C2 


vgv = (3.44) 

T 
Cette relation, assez générale, est également vérifiée pour la propagation dans les guides d’onde, la 
fréquence de plasma étant alors remplacée par la fréquence de coupure du guide. Notons que la 
vitesse de groupe tend vers zéro et que la vitesse de phase diverge quand la fréquence tend vers la 
fréquence de plasma. Au voisinage immédiat de cette fréquence, l’onde ne se propage pratiquement 
plus. La fréquence de plasma joue donc bien le rôle d’une fréquence de coupure dans ce problème. Le 
comportement en fréquence de la vitesse de groupe et de la vitesse de phase est illustré sur la figure 
3.1. 


3.3.4 Régime intermédiaire 


Nous considérerons maintenant les fréquences plus faibles que la fréquence de plasma maïs néanmoins 
très supérieures au taux d'amortissement: 


Wp> wy. (3.45) 


La relation de dispersion peut alors encore s’écrire, en négligeant y: 


k? = kle f — a (3.46) 
= koer w2 . z 
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Vitesse 


Figure 3.1: Vitesse de groupe et vitesse de phase en fonction de w/wp, en unités de la vitesse de la lumière dans le 


milieu. 
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La quantité entre crochets est maintenant négative et k est un imaginaire pur. Nous avons donc 
une onde dont la phase est partout la même (vitesse de phase infinie) et dont l’amplitude décroît 
exponentiellement dans le milieu avec une profondeur de pénétration: 


1/€r(w2 — w?) | 


L'ordre de grandeur de cette profondeur de peau, sauf au voisinage immédiat de la fréquence plasma 
où elle diverge, est la longueur d’onde de plasma, c/w,. Il s’agit donc d’une quantité très inférieur au 
micron. Il y a donc, à la fréquence plasma, une discontinuité très nette entre deux régimes: un régime 
de très forte absorption au dessous de la fréquence plasma et un régime de transparence parfaite au 
dessus. Le conducteur doit donc présenter un comportement résonnant à la fréquence plasma. C’est 
ce comportement que nous allons explorer maintenant. 


ô = (3.47) 


3.3.5 Ondes de Plasma 


Si nous nous plaçons à la fréquence de plasma, nous pouvons négliger le taux d'amortissement y. Nous 
pouvons alors voir que la conductivité vérifie: 


O = E0ErWp . (3.48) 


En établissant les équations de propagation, nous avions explicitement exclu ce cas. C’est en effet 
seulement quand cette condition est vérifiée qu’il peut exister une densité de charges dans le milieu. Si 
p est non nulle, il peut exister un champ électrique de divergence non nulle. Si nous cherchons ce champ 
sous la forme d’une onde plane, il s’agit d’une onde longitudinale, dont l’amplitude est colinéaire au 
vecteur d'onde. Nous l’appellerons onde de plasma. En prenant la direction de propagation selon Oz, 
nous pouvons donc chercher une solution en onde plane sous la forme: 


Here. (3.49) 
On peut alors écrire le rotationnel de B: 
V x B = Lolo — iwpeper|E . (3.50) 


Le crochet étant précisément nul à la fréquence de plasma, le rotationnel de B est nul. Le champ 
magnétique, dont divergence et rotationnel sont nuls, est donc identiquement nul. 

Physiquement, l’onde que nous venons de décrire correspond donc à une modulation sinusoïdale 
de la densité de porteurs libres dans l’espace à un instant donné. Il en résulte un champ électrique 
longitudinal qui tend à ramener les charges à leur position d’équilibre. En l’absence d'amortissement, le 
plasma oscille autour de cette position d'équilibre, à une fréquence déterminée seulement par sa densité, 
wp. On pourra se convaincre aisément que le vecteur d’onde de l’onde de plasma est complètement 
arbitraire car il n’existe aucune relation de dispersion. 

Dans un plasma assez dense, les champs électriques associés aux ondes de plasmas peuvent être 
très intenses. Il a été suggéré de les utiliser pour réaliser des accélérateurs de particules. Un battement 
entre deux faisceaux lasers de fréquences supérieures à la fréquence de plasma, se propageant donc 
librement, se couple par des effets non linéaires à la densité de charges et excite une onde de plasma. Il 
est possible, en choisissant correctement les vecteurs d’onde incidents d'accorder la vitesse de phase de 
l’onde de plasma à celle de la particule en accélération et de faire en sorte qu’elle soit toujours soumise 
à un champ électrique accélérateur. Au moins sur le papier, ces accélérateurs linéaires à plasma 
devraient avoir des performances tout à fait remarquables. Il ne reste qu’à vaincre les nombreuses 
difficultés techniques. 
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3.4 Relations de passage 


Nous avons considéré jusque-là la propagation dans un milieu linéaire homogène. Nous allons main- 
tenant, en route vers l’optique géométrique, nous poser le problème d’une discontinuité plane (au 
moins localement) entre deux milieux linéaires de caractéristiques différentes. Nous aurons à l'esprit 
surtout les interfaces entre diélectriques transparents mais la plupart de nos résultats s’appliqueront 
à des milieux arbitraires. Nous commencerons par établir les relations de continuité vérifiées par les 
champs électrique et magnétique de part et d’autre de l’interface. Nous en déduirons ensuite, en con- 
sidérant le passage d’une onde plane d’un milieu à l’autre, les lois de Descartes de la réflexion et de la 
réfraction. Enfin, nous établirons les relations de Fresnel qui lient les amplitudes des ondes réfléchie, 
réfractée et incidente. 


3.4.1 Conditions aux limites 


Nous considérons donc une interface entre deux milieux 1 et 2, au voisinage d’un point où la normale 
à l'interface, orientée conventionnellement de 1 vers 2, est n. Nous calculerons flux et circulation des 
champs sur deux types d'objets. 

Nous considérerons d’abord une “boîte de Camembert, cylindrique, de base dS. Les deux faces 
sont parallèles à la surface, situées immédiatement au dessus pour l’une et au dessous pour l’autre. 
La paroi latérale a une surface infinitésimale par rapport à dS. Le flux de B à travers la boîte doit 
être identiquement nul. Le flux sur la surface latérale étant négligeable, on a donc: 


(B2 = B:) -n=0 ; (3.51) 


où Bə et Bı désignent les champs magnétiques de part et d’autre de la surface, au voisinage immédiat 
du point considéré. La composante normale à la surface du champ magnétique est donc continue. En 
appliquant le même raisonnement au déplacement électrique, on a: 


(D2 = D:) "n=, (3.52) 


où © est une éventuelle densité surfacique de charges libres localisée sur la surface. La composante 
normale du déplacement électrique présente donc la même discontinuité qu’en électrostatique. 

Les deux autres équations de Maxwell portent sur des rotationnels. Nous utiliserons donc la 
circulation des champs sur un contour rectangulaire. Les deux grands côtés sont parallèles à la surface, 
de longueur dl selon un vecteur unitaire u. Un des côtés est situé dans le milieu 1, l’autre dans le 
milieu 2. Les deux petits côtés, perpendiculaires à l'interface, ferment le rectangle. Leur longueur est 
infinitésimale par rapport à dl. La circulation de E sur ce contour est égale à la dérivée temporelle 
du flux du champ magnétique à travers le contour. Le champ magnétique est sûrement borné au 
voisinage de l'interface, même s’il est discontinu. Le flux de ce champ dans le contour, dont la hauteur 
est infinitésimale par rapport à la longueur, est donc négligeable. Le circulation de E sur ce contour 
est donc nulle: 


u étant un vecteur arbitraire perpendiculaire à n, cette relation exprime que la composante tangentielle 
du champ électrique est continue. Elle peut aussi s'écrire: 


(E2 =E E1) xn=0. (3.54) 


Ecrivons enfin l'équation de Maxwell-Ampère. La circulation de H sur le contour fait intervenir la 
dérivée par rapport au temps du flux de D. Comme B plus haut, D est une quantité bornée au 
voisinage de l'interface et ce flux est négligeable. En revanche, le courant de conduction des charges 
libres peut avoir un flux non nul à travers le contour s’il s’agit d’un courant surfacique. Ce flux pourra 
s'écrire dl js - v, en posant v = n x u (il s’agit évidemment du vecteur définissant la normale à la 
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surface rectangulaire s'appuyant sur notre contour). js est la densité de courant surfacique, intégrale 
d’un courant volumique très localisé au voisinage de l’interface, sur une épaisseur infinitésimale par 
rapport à toutes les longueurs considérées ici. Notons que la dimension de js est celle d’un courant 
divisé par une longueur (ou d’une densité de courant multipliée par une longueur). On obtient donc 
une intensité en intégrant js sur une ligne tracée sur la surface. On a donc finalement: 


(Hə -H)-u=j;.v=j; (n x u) = u- (js x n). (3.55) 
Cette relation étant vraie pour toute orientation de u parallèlement à la surface, on a: 
Hə — H; = js xn, (3.56) 


ou: 
n x (H2 A H:) je € (3.57) 


On peut finalement regrouper les conditions au limites pour les quatre champs sous la forme: 


n - (D2 — D:) 
n x (E2 — E1) 
n - (B2 — B1) 
n x (H2 - Hı) = js, 


pour lesquelles on prendra garde que n est orienté de 1 vers 2. En ajoutant les relations définissant 
les susceptibilités, ces équations déterminent complètement les discontinuités des champs au passage 
de la surface. On aura évidemment noté que ces équations sont les mêmes qu’en électrostatique ou 
en magnétostatique. Comme nous n’avons, pour les établir, considéré qu’un domaine infinitésimal au 
voisinage de la surface, il est assez clair que les phénomènes de propagation, ou même d’induction, ne 
peuvent jouer aucun rôle. 


3.4.2 Passage entre deux milieux diélectriques 


Considérons maintenant, pour nous rapprocher encore de l'optique, une onde plane incidente sur un 
dioptre plan entre deux milieux diélectriques, non magnétiques, de permittivités diélectriques relatives 
(éventuellement complexes) €1 et €2. Nous noterons k; le vecteur d’onde incident. Cette onde se 
propage dans le milieu 1. L'interface étant dépourvue de toute densité de charges ou de courants 
libres, les composantes tangentielles de E et de H et les composantes normales de D et de B sont 
continues. En fait, les relations de dispersion dans les deux milieux et ces conditions aux limites ne 
peuvent être satisfaites que s’il existe, dans le milieu 2, une onde transmise de vecteur d’onde différent 
kz et une onde réfléchie dans le milieu 1, de vecteur d’onde kp. 


Lois de Descartes 


Les conditions de passage entre les deux milieux étant linéaires, elles ne pourront être satisfaites à 
tous les instants que si ces trois ondes ont exactement la même fréquence w. Notons qu’il existe des 
interfaces, parfois très simples comme la surface de l’eau, qui possèdent des propriétés non linéaires 
et sont capables de réfléchir l’harmonique deux de la fréquence incidente. Ce genre de phénomène, 
fournissant de précieux renseignements sur la structure de l’interface (orientation des molécules par 
exemple) étant très marginal, nous le négligerons ici. 
Toutes les relations de passage peuvent donc, en éliminant les facteurs oscillants communs, se 
mettre sous la forme: 
aeKiT £ bekrT $ ce'KtT —0 À (3.62) 
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où r est un point du dioptre et a, b, c des coefficients constants ne dépendant que de la géométrie 
des ondes et de leurs polarisations. Pour que ces relations soient vérifiées quel que soit r, il faut 
évidemment que (k; — kr) -r et (k; —k;)-r soient des constantes en fonction de r. En prenant l’origine 
sur la surface, ces constantes sont nulles et on en déduit que k; — k, et k; — k; sont perpendiculaires 
à la surface. On en déduit donc la première loi de Descartes: les trois vecteurs d’onde ainsi que la 
normale n au dioptre sont dans un même plan. 

Dans ce plan, nous définirons l’angle d’incidence 0; comme l’angle de k; avec la normale au dioptre 
orientée dans la direction du rayon incident (—n avec nos notations). Nous définirons de même l’angle 
de réflexion, 4, et l’angle de réfraction, 0+, défini, cette fois, par rapport à n. On peut alors écrire, 
dans le plan d'incidence, l’égalité des composantes selon la surface des trois vecteurs d’onde. Quand 
on note que les modules de k; et k, sont les mêmes puisque ces ondes se propagent dans le même 
milieu, on en déduit immédiatement l’égalité des angles d’incidence et de réflexion (deuxième loi de 
Descartes). Finalement, en écrivant que k; = niw/c et k; = naw/c, où ni et n2 sont les indices de 
réfraction des deux milieux, on établit: 


nı sin 0; = nsin 0; , (3.63) 


la troisième loi de Descartes. Finalement, les lois de la réflexion et de la réfraction de l’optique 
géométrique se déduisent simplement de l’existence et de la linéarité des conditions aux limites. 
Elles sont donc très générales et peuvent, par exemple, s'appliquer avec des modifications mineures à 
l’acoustique. 

La troisième loi de Descartes contient bien sûr le phénomène de réfraction limite quand on passe 
d’un milieu d’indice fort à un milieu d'indice faible. Il n’y a plus alors d’angle réel qui satisfasse aux 
lois de Descartes pour le faisceau transmis et toute l’énergie incidente est réfléchie. On peut cependant 
accorder dans ce cas un peu plus de crédit aux lois de Descartes qu’on ne le fait habituellement. L’angle 
de réfraction devrait avoir un sinus plus grand que 1. C’est donc un angle complexe. Le vecteur d’onde 
dans le milieu 2 est donc un vecteur d'onde complexe (au moins dans la direction normale). On a 
donc, dans le milieu 2, une onde évanescente, avec une profondeur de peau de l’ordre de la longueur 
d’onde (divisée par 27 quand on fait le calcul complet). Nous laissons au lecteur le soin de déterminer 
plus précisément les caractéristiques de cette onde. 


Coefficients de Fresnel 


Nous n'avons utilisé, pour établir les lois de Descartes, que l’existence des conditions de passage et 
leur linéarité. En fait, ces relations sont connues et nous pouvons maintenant les utiliser pour écrire 
explicitement les relations entre les amplitudes des ondes incidente et réfléchie. La géométrie du 
problème est assez complexe si nous considérons une onde incidente de polarisation quelconque. Nous 
pouvons utiliser une fois de plus la linéarité et ne considérer en fait que deux cas: une polarisation dans 
le plan d'incidence (polarisation conventionnellement appelée x) et une polarisation perpendiculaire 
au plan d’incidence (appelée polarisation ø). Les relations de continuité des composantes imposent 
bien sûr que, si le champ électrique incident est m (o) les champs réfléchis et transmis seront aussi 
de polarisation x (g). Les polarisations des différentes ondes sont donc équivalentes. Les conventions 
d'orientation pour les amplitudes des champs électrique et magnétique sont résumées sur la figure 3.2. 

Considérons d’abord le cas de la polarisation ø. Parmi toutes les relations possibles, nous écrirons 
la continuité des composantes tangentielles de E et B. Ces deux relations s’écrivent, en termes des 
amplitudes complexes, avec les conventions d’orientation de la figure: 


Ei+E, = E (3.64) 
—B; cos 0; + B,cos0, = —B;cos6;. (3.65) 


En remarquant que B = nE/c, on peut écrire la seconde relation en fonction des champs électriques. 
En exprimant alors Ery = Fy — E; à partir de la première relation et en utilisant l’égalité des angles de 
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Figure 3.2: Conventions d'orientation des champs électrique et magnétique pour l’établissement des relations de Fresnel. 


A gauche, polarisation dans le plan d’incidence (rx). A droite, polarisation perpendiculaire au plan d’incidence (o) 


réflexion et de réfraction, on tire de la seconde égalité: 


2n1 cos 6; 
E; = — E; 3.66 
t no cos ĝi + nı cosb; ( ) 


et enfin 
Lu cos 0; — Na cos 64 | (3.67) 
nə cos h+ + nı cos 6; 
Ce sont les relations de Fresnel qui donnent les amplitudes des ondes réfléchie et réfractée en fonction 
de celle de londe incidente. 
En polarisation 7, le calcul est essentiellement le même. On écrit les continuités des composantes 


tangentielles de E et B: 


B, = B;+B, (3.68) 
E; cos 0; — E, cos, = Ecos®. (3.69) 
On en déduit les relations de Fresnel: 
2 0; 
E; = "FRS, E (3.70) 


i 
nı cos 0; + no cos 6; 


No COS 0; — nı cos 64 
E, ——— #%, 


i 3.71 
nı cos 0} + no cos 6; ( ) 


Le cas de l’incidence normale mérite une considération particulière. En polarisation g, en prenant 
tous les angles nuls, on trouve: 


E, = ——E;,; 3.72 
t nı + N2 | 
n1 — 72 
E, = Ei 3.73 
i ni + no 1 ( ) 
alors qu’on trouve en polarisation mr: 
2n1 
E, = ——E;,; 3.74 
i nı + N2 f ( ) 
por. (3.75) 
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Ces deux résultats devraient être identiques, les polarisations m et g étant physiquement indistin- 
guables. La différence de signe sur l’amplitude réfléchie provient d’une différence dans nos choix 
d'orientation pour les deux polarisations. Quand l’angle d'incidence tend vers zéro, E; et Er ont la 
même orientation de référence en polarisation ø, alors qu’ils sont opposés en polarisation m. Assez 
étrangement, ces conventions de signe quelque peu absurdes ont survécu à des générations de manuels. 

On peut déduire de là les coefficients de transmission et de réflexion pour l'énergie. Les quantités 
physiquement intéressantes sont les flux normaux à la surface: 


Na COS 0x|Exl? , (3.76) 


avec x = i,r,t.Soit R le rapport des flux normaux réfléchi et incident, T le rapport des flux transmis et 
incident. Leurs expressions sont complexes, mais faciles à obtenir à partir des coefficients de Fresnel. 
En incidence normale, on trouve: 


— 2 
i 2 n2 (3.77) 
nı + 72 
Anin2 


qui vérifient évidemment R+T = 1 (cette relation, exprimant la conservation de l’énergie, est d’ailleurs 
vérifiée quelque soit l'incidence) 
Notons qu’en polarisation x, E, s’annule si: 


No cos 0; = n1 cos b; . (3.79) 


En combinant cette relation avec la troisième loi de Descartes, on voit que cela correspond à 


cos® = sinb; (3.80) 
sin® = cosb; (3.81) 
soit encore 
0 + 0: = »/2 (3.82) 
et a 
tanb; = —. (3.83) 
ni 


Pour cette incidence particulière, appelée incidence de Brewster, les rayons réfractés et réfléchis sont 
perpendiculaires et l’amplitude réfléchie est strictement nulle. On peut d’ailleurs se faire une image 
assez intuitive du mécanisme de l'incidence de Brewster. Physiquement, l’onde réfléchie doit être 
rayonnée par des dipôles situés au voisinage de l'interface, dans le matériau 2. Ces dipôles sont 
orientés selon la polarisation de l’onde réfractée. A l’incidence de Brewster, ils sont donc alignés avec 
la direction de propagation de l’onde réfléchie. Le rayonnement d’un dipôle étant nul le long de son 
axe, on comprend bien que l'intensité réfléchie doive être nulle dans ce cas. 

On combat au moyen de l’incidence de Brewster les réflexions parasites qui sont sources de pertes 
dans les systèmes optiques. Les tubes à plasma des lasers à gaz, par exemple, qui contiennent le 
milieu amplificateur dans la cavité laser, sont fermés par des fenêtres à l’incidence de Brewster, qui 
n’introduisent donc aucune perte pour la polarisation convenable. La conséquence en est que le 
rayonnement de ces lasers présente une polarisation linéaire 7. 

Notons finalement que les relations de Fresnel s’appliquent tout aussi bien au cas des indices 
de réfraction complexes. Prenons par exemple le cas de l’incidence normale sur un métal à basse 
fréquence, depuis l’air. L'indice nı est alors égal à 1 et l’indice no à: 


no = (1+i)x, (3.84) 
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avec: 


z=4—25%1. (3.85) 
On en déduit le coefficient de réflexion pour l'énergie: 


MER (3.86) 


R = -— 
(1+ x)? + x? z£ 


Le coefficient de réflexion est donc très voisin de 1, la différence s’exprimant facilement en fonction 
des caractéristiques du conducteur ou de la profondeur de peau ĝ: 


1— R= 2koô . (3.87) 


Plus grande est la conductivité, plus petite est la profondeur de peau et meilleure la qualité du miroir 
métallique. 


